undefined

Cliquer sur chaque lien dans une liste pour récupérer les données des nouvelles pages

Wednesday, June 30, 2021 11:06 AM
Cliquer sur chaque lien dans une liste et extraire des données d'une nouvelle page est un scénario courant dans le grattage Web. Ce tutoriel vous montrera comment cliquer en boucle sur une liste de page pour accéder à page de détail et obtenir les données dont vous avez besoin. Cette méthode est particulièrement utile pour des extractions à partir de sites de commerce électronique (Amazon, eBay, etc.) et d'annuaires d'entreprises (Yelp, Yellowpage, etc.).

web scraping with octoparse - extract from item page

Voyons comment cela se fait avec un exemple. Nous utiliserons l'URL: https://www.ebay.com/b/Car-Audio-Amplifiers/18795/bn_887008 pour l'exemple suivant.

1. Utiliser "Auto-détection" pour configurer le flux de travail

2. Configurer le flux de travail manuellement

 

 

1. Utiliser "Auto-détection" pour configurer le flux de travail

1) Après avoir créé une nouvelle  tâche avec l'URL d'exemple, sélectionnez "Détecter automatiquement les données de la page Web". Octoparse va détecter immédiatement toutes les données sur la page et vous pouvons cliquer ensuite sur "Créer un workflow" pour générer le workflow.

3.gif

 

Tips!

Si vous trouvez qu'Octoparse n'a pas sélectionné les bonnes données , vous pouvez basculer les résultats détectés pour localiser les éléments que vous désirez. Et si tous les résultats détectés ne fonctionnent pas pour vous, veuillez vous référer à 

2. Configurer le workflow manuellement

5.png

 

3) Sélectionnez "Cliquez sur le(s) lien(s) pour gratter la(les) page(s) liée(s)", choisissez "Cliquez sur un champ de données extrait" et sélectionnez un champ de données (ici, nous sélectionnons le Title_URL) dans le menu déroulant.

4.gif

 

Ou vous pouvez choisir "Cliquez sur un lien Web sur la page Web " et sélectionnez manuellement un lien sur la page.

2020-07-28_19-15-08.png

Veuillez noter que vous ne pouvez sélectionner qu'un lien parmi les sections détectées.

 

4) Auto-détectez à nouveau  les données Web ou cliquez manuellement sur les champs de données cibles tels que le titre, la critique, le prix, etc. pour les gratter

2020-07-28_19-31-33.png

 

 

2. Configurer le flux de travail manuellement

1) Cliquez sur le premier titre du produit qui contient l'URL de la page de produit.

Le titre sélectionné sera surligné en vert et tous les autres titres de produits similaires seront surlignés en rouge en même temps.

2020-07-28_19-44-59.png

2) Cliquez sur "Tout sélectionner" dans le panneau Tips

2020-07-28_19-47-52.png

 

Tips!

S'il n'y a pas d'option "Tout sélectionner" dans le panneau Tips après avoir sélectionné la première URL, veuillez continuer à sélectionner la deuxième URL.

 

3) Sélectionnez "Cliquez en boucle sur chaque URL" dans le panneau Tips. Notez qu'une étape Boucle-clic est générée automatiquement et ajoutée dans le workflow.

2020-07-28_19-48-53.png

 

Tips!

Pour cliquer en boucle sur tous les liens de la liste, il est important de sélectionner un élément d'ancrage. Octoparse identifiera automatiquement les balises des éléments sélectionnés. Ainsi, lorsque vous sélectionnez un élément avec une URL, la balise sélectionnée sera "A", qui représente généralement une ancre reliant  une page à une autre.

 

Si vous trouvez qu'Octoparse n'a pas localisé la balise A, vous pouvez cliquer sur le "A" dans le panneau Tips.

2020-07-28_19-50-50.png



4) Cliquez sur les champs de données cibles tels que le titre, la critique, le prix, etc. pour les gratter

2020-07-28_19-31-33.png

 

Tips!

Configurer un certain temps d'attente dans "Options avancées" pour des étapes telles que "Cliquer sur les éléments" ou "Extraire des données" pour éviter le saut de données et rendre le processus d'exploration plus humain. (Habituellement, 2 à 5 secondes fonctionneraient bien).

 

mceclip1.png

 

Si vous avez des questions, vous pouvez envoyer un ticket à notre équipe d'assistance.

 

Artículo en español:  Hacer clic en cada enlace de la lista y extraer datos de páginas nuevas

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Fergus

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter