undefined

Leçon 1: Extraire les données avec le nouvel algorithme "Auto-détection"

Friday, October 15, 2021 9:38 AM

Après avoir téléchargé Octoparse sur votre appareil et appris les concepts de base, il est temps d'exécuter votre propre projet de scraping Web!

La plupart des sites Web (annuaires, e-commerce, sites immobiliers, etc.) partagent une composition similaire. C'est-à-dire de nombreux éléments sont imbriqués d'une façon structurée dans une liste et présentés ainsi sur Internet. Voici quelques exemples.

Bestbuy.com

bestbuy_2.jpg

Amazon.com

amazon_2.jpg

 

 

Le tout nouvel algorithme "Auto-détection" d'Octoparse est spécifiquement conçu pour gratter ce type de pages. Il peut détecter automatiquement les données de liste (les éléments de texte et les liens par exemple), les boutons "Page suivante", les boutons "Charger plus" et le défilement d'une page vers le bas, puis configurer automatiquement la tâche de grattage.

Dans ce tutoriel, nous vous montrons comment extraire des données de page Web à l'aide de cet algorithme.

Tips

Octoparse Hello World propose quelques sites de test pour vous aider à vous familiariser avec les méthodes de scraping à partir de différents types de pages Web.

 

 

 

 

1. Créer une nouvelle 

 

Entrer l'exemple URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" dans la zone de recherche sur la page d'accueil. Cliquer sur "Démarrer" pour créer une nouvelle tâche sous le mode avancé.

2.png

 

2. Obtenir des données via l'auto-détection

 

Octoparse ouvrira la page Web dans son navigateur intégré et lancera automatiquement la détection. Attendez patiemment jusqu'à ce que le processus de détection se termine et que plus de nouvelles informations soient affichées sur "Tips".

 

start.gif

 

Tips

Si vos données voulées ne sont pas présentées sur la page après le chargement, consultez ce tutoriel, dans lequel on vous montra comment interagir avec la page Web avant de lancer l'auto-détection des données.

 

3. Vérifier les données

Une fois l'auto-détection soit terminée, suivez les instructions indiquées dans "Tips" et vérifiez vos données dans la section d'aperçu. Vous pouvez renommer les champs de données comme vous voulez ou supprimer ceux qui ne sont pas nécessaires. Les données détectées seront également mises en évidence sur la page Web pour que vous puissiez les trouver facilement.

 

edit.gif

 

4. Confirmer vos options

Maintenant, voir "Tips" et vérifier les options. Plusieurs options vous seront proposées selon le type de données détectées. Dans cet exemple, les données de liste sont déjà détectées, voici les options fournies:

 

c.png

 

 

1. Extraire les données de liste - Cette option est sélectionnée par défaut, car logiciel d'Octoparse pense que c'est ce que vous devez faire à coup sûr.

2. Cliquer sur le bouton "Page suivante" pour extraire les données de plusieurs pages - Evidemment, Octoparse a déjà réussi à détecter le bouton "Page suivante" de cette page. Adoptez cette option si vous voulez que l'Octoparse clique sur ce bouton et extraie les données de plusieurs pages.

  

Tips

Pour vérifier si le bouton détecté soit exactement le bouton "page suivante" ou pas, vous pouvez cliquer sur "vérifier" et le bouton sélecté sera mis en évidence sur la page. Si vous voulez sélecter à nouveau le bouton "page suivante", cliquez sur "Éditer" et suivez les instructions indiquées dans "Tips".

 

 

check.gif

 

5. Enregistrer les paramètres de la tâche

Après avoir confirmé les paramètres, cliquer sur "Create workflow" . 

 

E.png

Octoparse générera automatiquement un workflow en fonction des données détectées et des paramètres enregistrés. Vous pouvez choisir d'exécuter la tâche tout de suite ou de modifier le workflow manuellement.

 

mceclip1.png

  

Pour savoir comment optimiser votre workflow, veuillez continuer >> Leçon 2: Optimiser votre tâche

 

 

Auteur : L'équipe Octoparse

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter