undefined

Pourquoi Octoparse ne clique-t-il que sur le premier élément de boucle et s'arrête ensuite? (Version 8)

Thursday, July 15, 2021 4:45 PM

Lorsque vous créez une action "cliquer en boucle" dans un workflow, Octoparse chargera chaque lien individuel dans un nouvel onglet par défaut. Par conséquent, lorsqu'il clique pour ouvrir chaque lien de la liste, il ne quittera jamais l'onglet contenant la page de liste. Cependant, dans certains cas particuliers, la nouvelle page ne peut pas être chargée directement sur l'onglet actuel. Dans ce cas-là, Octoparse ne pourra plus charger le deuxième élément de la liste car il n'a plus de moyen d'accéder à la liste d'origine, et vous obtiendrez ainsi une action "cliquer en boucle" qui ne clique que sur le premier élément de la boucle et ne continuera pas à traiter les autres éléments de la liste.

  

Comment puisse-je savoir si ma boucle fonctionne correctement ?

Vous pouvez cliquer manuellement sur l'action dans le workflow pour vérifier si la boucle fonctionne correctement.

  • Cliquez sur "Elément de Boucle" après le chargement de la page de liste
  • Cliquez sur "Cliquer sur l'élément" et attendez que la nouvelle page se charge
  • Cliquez à nouveau sur "Elément de Boucle" pour voir si Octoparse affiche la page de liste

Si vous pouvez voir la page de liste, cela signifie qu'Octoparse peut revenir à la page de liste et la Boucle fonctionnera ainsi correctement. D'autre part, vous devez modifier le workflow pour le faire fonctionner. Voici quelques solutions rapides que vous pouvez essayer en vous-même.

 

3.gif

 

 

1. Ouvrez la page de détail dans un nouvel onglet

Pour les sites Web sur lesquels les liens peuvent être chargés dans un nouvel onglet, saisissez les paramètres de l'action "Cliquer sur l'élément"  (qui clique pour ouvrir une nouvelle page). Vérifiez si l'option "Ouvrir dans un nouvel onglet" est coché. Si non, il suffit de cocher l'option pour résoudre le problème.

 

2.png

 

2. Ajouter un bouton de retour

Si la boucle ne fonctionne toujours pas même après avoir sélectionné "Ouvrir dans un nouvel onglet", la nouvelle page est probablement chargée avec AJAX. Dans ce cas-là, la nouvelle page couvrira la page de liste lors de son chargement, et Octoparse ne pourra plus revenir à la page de liste.

Pour résoudre ce problème, trouvez un bouton qui vous ramènera à la page de liste. Dans l'exemple ci-dessous, nous choisirons le bouton "Retour aux résultats de recherche". S'il existe un tel bouton, veuillez configurer une action de clic avec ce bouton de "Retour". De cette façon, lorsque Octoparse aura terminé l'extraction des données sur la nouvelle page, il cliquera sur le bouton "Retour" pour revenir à la liste d'origine pour continuer à parcourir les autres éléments de la liste.

3.png

  • Cliquez sur le bouton "Retour"
  • Choisissez "Cliquez sur l'élément" ou "Cliquez sur le bouton" dans le panneau Tips

4.png

  • Ajustez le délai d'attente AJAX pour qu'il soit suffisamment long pour que la page s'affiche

5.png

 

Le flux de travail devrait ressembler à ceci :

mceclip1.png

 

3. Ajouter une action "Aller à la page Web"

Même si vous avez sélectionné "Ouvrir dans un nouvel onglet" et qu'il n'y a pas de bouton "Retour" disponible sur la page, vous pouvez toujours essayer une autre astuce - ajouter manuellement une action "Aller à la page Web" pour aider Octoparse à revenir à la page de liste d'origine.

Passez votre curseur sur le workflow et ajoutez une étape "Aller à la page" en tant que la dernière étape d'"Elément de Boucle". Chaque fois qu'Octoparse termine de scraper la page actuelle, cette action l'obligera à rouvrir la page de liste. Cependant, si vous parcourez une liste qui s'étend sur plusieurs pages, cette méthode ne peut plus fonctionner.

  • Ajoutez une action "Aller à la page Web" au workflow1.gif
  • Copiez et collez l'URL de la page de liste

2.gif

 

4. Divisez la tâche en deux tâches

Enfin et surtout, quelle que soit la longueur de votre liste ou la raison pour laquelle la page n'est pas chargée dans un nouvel onglet, vous pouvez toujours essayer de diviser la tâche en deux, l'une pour procurer les URL imbriqués dans une liste d'élément, l'autre pour extraire des informations spécifiques de chaque URL. C'est un tour de magie. Cette méthode fiable vous épargnera de basculer entre les onglets, ce qui rend le processus d'exploration plus efficace. Consultez Scraper les informations de produits sur Target.com pour apprendre cette méthode étape par étape.

Pour automatiser davantage le processus d'exploration, vous pouvez même associer les tâches pour qu'elles s'exécutent ensemble avec cette fonctionnalité : "Importer les URL d'une autre tâche".

 

Auteur: Yina

Editeur: Isabel

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter