Toutes les collections
Octoparse 101
Leçon 1 : Extraire les données automatiquement
Leçon 1 : Extraire les données automatiquement

Ce tutoriel va vous expliquer la détection automatique de Octoparse et vous montrer comment scraper des données automatiquement.

Mis à jour il y a plus d’une semaine

Après avoir téléchargé Octoparse sur votre appareil et compris les concepts de base, il est temps d'exécuter votre propre projet de scraping Web !

La plupart des sites Web (annuaires, e-commerce, sites immobiliers, etc.) partagent une composition similaire. C'est-à-dire un grand nombre d'éléments sont imbriqués d'une façon structurée dans une liste et présentés ainsi sur Internet. Voici quelques exemples.

Bestbuy

Amazon

amazon

Le tout nouvel algorithme "Auto-détection" d'Octoparse est spécifiquement conçu pour scraper ce type de pages. Il peut détecter automatiquement les données de liste (le texte et les liens par exemple), les boutons "Page suivante", les boutons "Charger plus" et le défilement d'une page vers le bas, puis configurer automatiquement un flux de travail.

Dans ce tutoriel, nous vous montrons comment extraire des données de page Web à l'aide de cet algorithme.

Tips!

Octoparse Hello World propose quelques sites de test pour vous aider à vous familiariser avec le web scraping avec de différents types de pages Web.


1. Créer une nouvelle tâche

Entrez l'exemple URL "http://test-sites.octoparse.com/?product_cat=e-commerce-category-1" dans la zone de recherche sur la page d'accueil. Cliquez sur "Démarrer" pour créer une nouvelle tâche sous le mode avancé.

2. Obtenir des données via l'auto-détection

Octoparse ouvrira la page Web dans son navigateur intégré et vous pouvez cliquer pour lancer la détection automatique quand le chargement de la page est terminé. Attendez patiemment jusqu'à ce que le processus de détection se termine et que plus de nouvelles informations soient affichées sur "Tips".

3. Vérifier les données

Une fois l'auto-détection soit terminée, suivez les instructions dans le panneau de conseils et vérifiez vos données dans la section d'aperçu. Vous pouvez renommer les champs de données comme vous voulez ou supprimer ceux qui ne sont pas nécessaires. Les données détectées seront également mises en évidence sur la page Web pour que vous puissiez les trouver facilement.


4. Confirmer vos options

Maintenant, tournez vos regard aux conseils pour faire vos options. Plusieurs options vous seront proposées selon le type de données détectées. Dans cet exemple, les données de liste sont déjà détectées, voici les options fournies:

Extraire les données dans la liste - Cette option est sélectionnée par défaut, car logiciel d'Octoparse pense que c'est ce que vous devez faire à coup sûr.

Paginer pour récupérer plus de pages - Elle est également cochée par défaut. Vous pouvez le décocher si vous ne voulez que les données de la page actuelle. Pour vérifier si le bouton détecté soit exactement le bouton "page suivante" ou pas, vous pouvez cliquer sur "vérifier" et le bouton sélecté sera mis en évidence sur la page. Si vous voulez sélecter à nouveau le bouton "page suivante", cliquez sur "Éditer" et suivez les instructions indiquées dans "Tips".

Cliquer sur le bouton "Page suivante" pour extraire les données de plusieurs pages - Evidemment, Octoparse a déjà réussi à détecter le bouton "Page suivante" de cette page. Adoptez cette option si vous voulez que l'Octoparse clique sur ce bouton et extraie les données de plusieurs pages.

5. Enregistrer les paramètres de la tâche

Après des modifications nécessaires et après que vous avez confirmé qu'il n'y a pas de problème dans les données, c'est le moment de cliquer sur

Après avoir confirmé les paramètres, cliquez sur "Enregistrer les paramètres" .

Octoparse générera automatiquement un flux de travail. Vous pouvez choisir d'exécuter la tâche tout de suite ou de modifier le workflow manuellement.

Voilà, c'est fait !

Avez-vous trouvé la réponse à votre question ?