undefined

Élément de boucle

Tuesday, June 22, 2021 9:44 AM

Lorsque vous créez une tâche de grattage dans Octoparse, vous utiliseriez probablement un "Élément de boucle" dans le processus. Un "Élément de boucle" est le plus souvent utilisé pour capturer une liste d'éléments ou pour paginer à travers de différentes pages d'un site Web. Dans cet article, nous vous expliquerons précisément comment fonctionne un "Élément de boucle" dans Octoparse.

 

1. Qu'est-ce qu'un "Élément de boucle"

2. Les Paramètres d'"Élément de boucle"

3. Les 5 modes de boucle et comment les utiliser ?

4. Comment créer un "Élément de boucle" 

5. Dépannage d'"Élément de boucle"

 

 

1.  Qu'est-ce qu'un "Élément de boucle"

Une "boucle" est une fonctionnalité de programmation qui répète une instruction continuellement jusqu'à ce qu'une certaine condition soit atteinte. La fonctionnalité "Élément de boucle" dans Octoparse est similaire à une boucle. Un élément de boucle est généralement créé avec plusieurs URL/éléments et des actions y seront aussi ajoutées. Une fois qu'un élément de boucle est créé, Octoparse répétera les actions en boucle jusqu'à ce qu'il atteint X de fois de répétitions désignées ou jusqu'à ce qu'il ne peut plus continuer à répéter les actions, par exemple, lorsqu'il n'y a plus de page suivante à retourner (c'est-à-dire lorsque vous avez atteint la dernière page).

Regardons un exemple. Supposons que vous avez une liste d'URL pour extraire des données. Tout d'abord, vous devez créer un élément de boucle avec la liste d'URL, puis insérez une action "Aller à la page Web" et une action "Extraire des données" dans l'élément de boucle. Le flux de travail ressemblerait à ceci :

mceclip1.png

Ce workflow est composé d'un ensemble d'instructions qui indique à Octoparse de saisir la première URL de la liste, de charger la page avec l'action "Aller à la page Web", puis de gratter les données avec l'action "Extraire les données". Les même actions serons répétées pour toutes les URL de la liste jusqu'à ce que la dernière URL soit prise, puis la boucle s'arrête.

 

2. Les Paramètres d'"Élément de boucle"

Si vous double-cliquez sur l'Élément de boucle ou cliquez sur mceclip1.png au dessus, vous accéderez au panneau des paramètres. voyons ensemble les options disponibles.

Settings.png

 

1) Nom d'action: C'est l'endroit où vous pouvez changer le nom d'un élément de boucle spécifique. Si vous avez plusieurs "éléments de boucle" dans votre flux de travail, vous pouvez définir un nom unique pour chaque "élément de boucle", ce qui vous aidera à régler beaucoup de problèmes .

2) Mode de BouclePour qu'un "élément de boucle" fonctionne correctement, il est essentiel de sélectionner le bon mode de boucle. Il existe cinq modes de boucle dans Octoparse, nous vous expliquerons dans les parties suivantes.

3) Quitter la Boucle: En plus de la fermeture automatique de la boucle, vous pouvez également terminer la boucle prématurément par désigner le nombre de répétition d'actions en boucle.

4) Attendre avant l'action: Vous pouvez utiliser cette fonctionnalité pour configurer le temps d'attente entre chaque répétition.

 

3. Les 5 modes de boucle et comment les utiliser ?

Il y a 5 modes de boucle dans Octoparse: Élément Unique, Liste Variable, Liste Fixe, Liste d'URL et Liste de Texte.

Loop_mode.png 

  • "Élément unique" est utilisé pour localiser un élément spécifique sur la page. Octoparse effectuerait les actions en boucle sur le même élément jusqu'à ce qu'il ne puisse plus trouver l'élément sur la page. On utilise souvent la fonctionnalité "élément unique" lorsqu'on souhaite qu'Octoparse clique plusieurs fois sur le bouton "Page suivante" jusqu'à ce qu'il atteint la dernière page (plus de "Page suivante").

 Single.png

  • La liste variable est utilisée pour localiser une liste d'éléments jumelée avec une seule requête XPath. Octoparse effectuerait les actions en boucle sur les éléments correspondants un par un jusqu'à ce que le dernier élément soit atteint. La liste variable doit être utilisée lorsque le nombre d'éléments que vous souhaitez parcourir ne sont pas cohérent sur chaque page.

 variable_list.png

  • La Liste Fixe, similaire à la liste variable, peut localiser une liste d'éléments. Mais la différence est que la liste fixe est une liste de requêtes XPathdont chacun localise un élément unique sur la page. Il est utilisé lorsque le nombre d'éléments sont cohérent sur toutes les pages.

 Fixed.png

  • La Liste d'URL est utilisée pour parcourir une liste d'URL. Avec cette fonctionnalité, Octoparse ouvrirait les URL de liste une par une. Il y a quatre façons pour saisir les URL, découvrez-les ici.

 List_of_URLs.png

  • La Liste de Texte est une liste de chaînes de texte.  Avec cette fonctionnalité, Octoparse entrerait les chaînes sur la page une par une.

 text_list.png

Tips!

La Liste Fixe, la Liste d'URL et la Liste de Textes peuvent être divisées dans le cloud pour accélérer l'extraction.

La Liste Variable peut être changée en Liste Fixe pour accélérer l'extraction.

 
 

4. Comment créer un "Élément de boucle" 

Vous pouvez choisir le type d'élément de boucle en fonction de vos besoins de grattage. Consultez les tutoriels ci-dessous pour apprendre la façon de créer un élément de boucle.

 

5. Dépannage d'"Élément de boucle"

Il y de nombreux problèmes concernant l'élément de boucle, tels que des éléments manquants, des pages sautées, etc. Les problèmes les plus fréquemment posés à propos d'élément de boucle sont énumérés ci-dessous :

Pagination:

Éléments manquants:

Autres:

 

Artículo en español:  Elemento de bucle

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Yina

Editeur: Isabel

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter