undefined

Leçon 1: Extraire les données avec l'algorithme "Auto-détection"

Tuesday, May 11, 2021 2:27 PM

Après avoir téléchargé Octoparse sur votre appareil et appris les concepts de base, il est temps d'exécuter votre propre projet de scraping Web!

La plupart des sites Web (annuaires, e-commerce, sites immobiliers, etc.) partagent une composition similaire.C'est-à-dire de nombreux éléments sont imbriqués d'une façon structurée dans une liste et présentés ainsi sur Internet. Voici quelques exemples.

Bestbuy.com

Amazon.com

amazon

 

Le tout nouvel algorithme "Auto-détection" d'Octoparse est spécifiquement conçu pour gratter ce type de pages. Il peut détecter automatiquement les données de liste (les éléments de texte et les liens par exemple), les boutons "Page suivante", les boutons "Charger plus" et le défilement d'une page vers le bas, puis configurer automatiquement la tâche de grattage.

Dans ce tutoriel, nous vous montrons comment extraire des données de page Web à l'aide de cet algorithme.

 

Tips!

Octoparse Hello World propose quelques sites de test pour vous aider à vous familiariser avec les méthodes de grattage à partir de différents types de pages Web.

  

 

1. Créer une nouvelle tâche

 

Entrez l'exemple URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" dans la zone de recherche sur la page d'accueil. Cliquez sur "Démarrer" pour créer une nouvelle tâche sous le mode avancé.

 

Créer une nouvelle tâche

 

2. Obtenir des données via l'auto-détection

Octoparse ouvrira la page Web dans son navigateur intégré et lancera automatiquement la détection. Attendez patiemment jusqu'à ce que le processus de détection se termine et que plus de nouvelles informations soient affichées sur "Tips".

 

Obtenir des données via l'auto-détection

 

 

3. Vérifier les données

Une fois l'auto-détection soit terminée, suivez les instructions indiquées dans "Tips" et vérifiez vos données dans la section d'aperçu. Vous pouvez renommer les champs de données comme vous voulez ou supprimer ceux qui ne sont pas nécessaires. Les données détectées seront également mises en évidence sur la page Web pour que vous puissiez les trouver facilement.

verifier les donnees

 


4. Confirmer vos options

Maintenant, tournez vos regard aux "Tips" et vérifiez vos options. Plusieurs options vous seront proposées selon le type de données détectées. Dans cet exemple, les données de liste sont déjà détectées, voici les options fournies:

 

Confirmer vos options

 

1. Extraire les données de liste - Cette option est sélectionnée par défaut, car logiciel d'Octoparse pense que c'est ce que vous devez faire à coup sûr.

2. Cliquer sur le bouton "Page suivante" pour extraire les données de plusieurs pages - Evidemment, Octoparse a déjà réussi à détecter le bouton "Page suivante" de cette page. Adoptez cette option si vous voulez que l'Octoparse clique sur ce bouton et extraie les données de plusieurs pages.

 

Conseils: Pour vérifier si le bouton détecté soit exactement le bouton "page suivante" ou pas, vous pouvez cliquer sur "vérifier" et le bouton sélecté sera mis en évidence sur la page. Si vous voulez sélecter à nouveau le bouton "page suivante", cliquez sur "Éditer" et suivez les instructions indiquées dans "Tips".

 

5. Enregistrer les paramètres de la tâche

Après avoir confirmé les paramètres, cliquez sur "Enregistrer les paramètres" . 

Enregistrer les paramètres

Octoparse générera automatiquement un workflow en fonction des données détectées et des paramètres enregistrés. Vous pouvez choisir d'exécuter la tâche tout de suite ou de modifier le workflow manuellement.

 

modifier le workflow

  

Pour savoir comment optimiser votre workflow, veuillez continuer >> Leçon 2: Optimiser votre tâche

 

 

 

Les articles liés

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter