Octoparse

Cliquer sur chaque lien dans une liste pour extraire des données des nouvelles pages, c'est un scénario fréquent dans le web scraping.

Ce tutoriel vous montrera comment cliquer à travers une page de résultats vers une page de détail pour obtenir les données dont vous avez besoin. Cette méthode est particulièrement utile pour extraire des données de sites de e-commerce (Amazon, eBay, etc.) et d'annuaires professionnels (Yelp, PagesJaunes, etc.)

___________________________________________________________

Vous aurez peut-être besoin de ce lien pour suivre :

<a href="https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008" rel="nofollow noopener noreferrer" target="_blank">https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008</a>

1.  Utiliser la Détection automatique pour créer le flux de travail

Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL (<a href="https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008" rel="nofollow noopener noreferrer" target="_blank">https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008</a>), sélectionnez Autodétection des données de la page Web. Octoparse va détecter toutes les données de la page, et puis, vous pouvez cliquer sur Créer un flux de travail pour que l'outil génère le workflow.

- Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL (<a href="https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008" rel="nofollow noopener noreferrer" target="_blank">https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008</a>), sélectionnez Autodétection des données de la page Web. Octoparse va détecter toutes les données de la page, et puis, vous pouvez cliquer sur Créer un flux de travail pour que l'outil génère le workflow.

Sélectionnez Sélectionner l'URL de la sous-page dans le panneau Conseils.

- Sélectionnez Sélectionner l'URL de la sous-page dans le panneau Conseils.

Choisissez une option dans le menu déroulant. Ici, vous pouvez choisir Lien_du_titre. Et Octoparse va vous conduire à la page de détail du premier résultat.

Redétecter automatiquement les données Web ou cliquer sur les champs de données clés tels que le titre, l'état, le prix, etc. pour les récupérer.

- Choisissez une option dans le menu déroulant. Ici, vous pouvez choisir Lien_du_titre. Et Octoparse va vous conduire à la page de détail du premier résultat.
   
  
   
- Redétecter automatiquement les données Web ou cliquer sur les champs de données clés tels que le titre, l'état, le prix, etc. pour les récupérer.

2. Configurer le flux de travail manuellement

Cliquez sur le premier titre de produit qui contient l'URL du produit. Le titre sélectionné sera mis en vert, tandis que tous les autres titres de produits similaires seront mis en rouge.

Cliquez sur Choisir les éléments similaires dans le panneau Conseils

- Cliquez sur le premier titre de produit qui contient l'URL du produit. Le titre sélectionné sera mis en vert, tandis que tous les autres titres de produits similaires seront mis en rouge.
- Cliquez sur Choisir les éléments similaires dans le panneau Conseils

Si l'option Choisir les éléments similaires n'apparaît pas dans le panneau Conseils après avoir sélectionné la première URL, continuez à sélectionner la deuxième.

Sélectionnez Cliquer sur chaque élément en boucle dans le panneau Conseils. Remarquez que l'étape de clic en boucle est générée automatiquement et ajoutée au flux de travail.

- Sélectionnez Cliquer sur chaque élément en boucle dans le panneau Conseils. Remarquez que l'étape de clic en boucle est générée automatiquement et ajoutée au flux de travail.

Si vous rencontrez cette fenêtre, cliquez sur "Non"

- Si vous rencontrez cette fenêtre, cliquez sur "Non"

CONSEIL : Pour que tous les liens de la liste soient parcourus en boucle, il est important que vous sélectionniez l'élément d'ancrage. Octoparse identifie automatiquement les balises des éléments sélectionnés. Ainsi, lorsque vous sélectionnez un élément avec une URL, la balise sélectionnée sera "A", qui correspond à une ancre qui relie généralement une page à une autre.

Si vous trouvez qu'Octoparse ne localise pas la balise A, vous pouvez cliquer sur le "A" dans le panneau des conseils.

Cliquez sur les champs de données tels que le titre, la revue, le prix, etc. pour les extraire.

- Cliquez sur les champs de données tels que le titre, la revue, le prix, etc. pour les extraire.

Définir un temps d'attente dans les options pour les étapes telles que "Cliquer sur l'élément" ou "Extraire les données" peut éviter efficacement le saut de données et rendre le processus d'exploration plus humain. (En général, un délai de 2 à 5 secondes est suffisant). Cliquez ensuite sur Appliquer pour confirmer.

Cliquer sur chaque lien d'une liste pour extraire les données des nouvelles pages

Go to Octoparse.com

Octoparse DE

Octoparse FR

Octoparse ES

Octoparse JP

Télécharger

Blog

API Docs

Trouvez réponse à vos questions et obtenez de l’aide auprès des experts de la communauté Intercom