Réessayer les actions

Ce tutoriel va vous expliquer pourquoi et comment configuer réessayer.

Mis à jour il y a plus d’une semaine

L'action Réessayer est une fonctionnalité fournie dans Octoparse pour traiter les erreurs de chargement de page. Vous pouvez choisir parmi des conditions fournies pour faire Octoparse recharger la page Web actuelle. Pour le scraping web, il est essentiel de s'assurer que la page Web est chargée correctement afin qu'Octoparse puisse continuer d'extraire les informations dont vous avez besoin.

1. Pourquoi configurer Réessayer ?

Lorsque la page Web n'était pas chargée correctement, Octoparse rencontrait des problèmes pour scraper les données Web cibles et ne pouvait même pas passer à l'action suivante. De ce fait, il est nécessaire de définir une condition de "Réessayer" pour recharger la page Web avant d'extraire les données.

2. Comment configurer Réessayer ?

L'option Réessayer ne s'applique qu'à deux opérations liées au chargement de page dans le workflow :

  • Double-cliquez sur l'action pour accéder aux paramètres. Ensuite, vous pouvez cliquer sur Réessayer pour afficher les options.

  • Maintenant, cochez la case "Réessayer l'action quand", puis cliquez sur

pour configurer les conditions de rechargement de page. Vous "dites" ainsi à Octoparse quand recharger la page si une ou plusieurs conditions sont remplies.

  • Maintenant, configurez les conditions de Réessayer avec les options fournies.

Habituellement, lorsque la page ne se charge pas correctement, vous recevrez des messages d'erreur tels que "erreur", "Erreur de Serveur Interne 500" ou "Trop de demandes". Supposons que nous voulions recharger la page lorsqu'une "Erreur de Serveur Interne 500" apparaît sur la page. Dans ce cas, la condition configurée doit être : si la page actuelle contient le texte "Erreur de Serveur Interne 500", rechargez la page. Par conséquent, lorsque la chaîne est trouvée sur la page actuelle, Octoparse réessayera de charger la page.

Vous pouvez aussi saisir le XPath d'un élément spécifique, qui ne s'affichera que lorsque la page se charge correctement. Dans ce cas, vous devez choisir l'option Ne pas contenir. Par conséquent, si l'élément saisi n'est pas trouvé sur la page, Octoparse rechargera la page.

  • Configurer Réessayer pour et le Temps d'attente

Après avoir défini les conditions de réessayer, vous pouvez décider de réessayer de charger la page Web une, deux ou plusieurs fois. Le nombre de répétitions est essentiel pour qu'Octoparse ne recharge pas la page Web à l'infini. Lorsque Octoparse atteint le nombre maximum de réessayer il s'arrêtera et passera à l'étape suivante.

Avez-vous trouvé la réponse à votre question ?