undefined

Leçon 1: Extraire les données avec le tout nouvel algorithme "Auto-détection"

Tuesday, May 11, 2021 2:27 PM

Après avoir téléchargé Octoparse sur votre appareil et appris les concepts de base, il est temps d'exécuter votre propre projet de scraping Web!

La plupart des sites Web (annuaires, e-commerce, sites immobiliers, etc.) partagent une composition similaire.C'est-à-dire de nombreux éléments sont imbriqués d'une façon structurée dans une liste et présentés ainsi sur Internet. Voici quelques exemples.

Bestbuy.com

bestbuy_2.jpg

Amazon.com

amazon_2.jpg

Le tout nouvel algorithme "Auto-détection" d'Octoparse est spécifiquement conçu pour gratter ce type de pages. Il peut détecter automatiquement les données de liste (les éléments de texte et les liens par exemple), les boutons "Page suivante", les boutons "Charger plus" et le défilement d'une page vers le bas, puis configurer automatiquement la tâche de grattage.

Dans ce tutoriel, nous vous montrons comment extraire des données de page Web à l'aide de cet algorithme.

Tips!

Octoparse Hello World propose quelques sites de test pour vous aider à vous familiariser avec les méthodes de grattage à partir de différents types de pages Web.

  

1. Créer une nouvelle tâche

 

Entrez l'exemple URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" dans la zone de recherche sur la page d'accueil. Cliquez sur "Démarrer" pour créer une nouvelle tâche sous le mode avancé.

2.png

 

2. Obtenir des données via l'auto-détection

 

Octoparse ouvrira la page Web dans son navigateur intégré et lancera automatiquement la détection. Attendez patiemment jusqu'à ce que le processus de détection se termine et que plus de nouvelles informations soient affichées sur "Tips".

a.gif

Tips!

Si vos données voulées ne sont pas présentées sur la page après le chargement, consultez ce tutoriel, dans lequel on vous montra comment interagir avec la page Web avant de lancer l'auto-détection des données.

 

3. Vérifier les données

Une fois l'auto-détection soit terminée, suivez les instructions indiquées dans "Tips" et vérifiez vos données dans la section d'aperçu. Vous pouvez renommer les champs de données comme vous voulez ou supprimer ceux qui ne sont pas nécessaires. Les données détectées seront également mises en évidence sur la page Web pour que vous puissiez les trouver facilement.

b.gif


4. Confirmer vos options

Maintenant, tournez vos regard aux "Tips" et vérifiez vos options. Plusieurs options vous seront proposées selon le type de données détectées. Dans cet exemple, les données de liste sont déjà détectées, voici les options fournies:

 

c.png

1. Extraire les données de liste - Cette option est sélectionnée par défaut, car logiciel d'Octoparse pense que c'est ce que vous devez faire à coup sûr.

2. Cliquer sur le bouton "Page suivante" pour extraire les données de plusieurs pages - Evidemment, Octoparse a déjà réussi à détecter le bouton "Page suivante" de cette page. Adoptez cette option si vous voulez que l'Octoparse clique sur ce bouton et extraie les données de plusieurs pages.

 

Conseils: Pour vérifier si le bouton détecté soit exactement le bouton "page suivante" ou pas, vous pouvez cliquer sur "vérifier" et le bouton sélecté sera mis en évidence sur la page. Si vous voulez sélecter à nouveau le bouton "page suivante", cliquez sur "Éditer" et suivez les instructions indiquées dans "Tips".

d.gif

 

5. Enregistrer les paramètres de la tâche

Après avoir confirmé les paramètres, cliquez sur "Enregistrer les paramètres" . 

E.png

Octoparse générera automatiquement un workflow en fonction des données détectées et des paramètres enregistrés. Vous pouvez choisir d'exécuter la tâche tout de suite ou de modifier le workflow manuellement.

F.png

  

Pour savoir comment optimiser votre workflow, veuillez continuer >> Leçon 2: Optimiser votre tâche

 

Artículo en español: Lección 1: Extraer datos con el nuevo algoritmo de Auto-detect

También puede leer artículos de web scraping en el sitio web oficial

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter