undefined

Pourquoi Octoparse saute-il des pages pendant le scraping ? (Version 8)

Friday, July 16, 2021 3:17 PM

De nombreux utilisateurs ont rencontré une situation dans laquelle Octoparse saute des pages lors de grattage d'un site Web. Par exemple, après avoir gratté  avec succès les deux premières pages, il saute directement à la page 5, puis à la page 10, mais pas des pages à la séquence.

C'est parce que le XPath généré automatiquement de la boucle de pagination ne localise pas toujours le bon bouton de page suivante sur chaque page.

Regardez l'exemple suivant : URL d'Exemple

Sur la première page, vous pouvez voir que le XPath de la boucle de pagination localise parfaitement le bouton suivant.

mceclip1.png 

Cependant, sur la deuxième page, le XPath localise la page 10.

mceclip0.png

Ainsi, après avoir gratté la deuxième page, Octoparse passera directement à la page 10 et de nombreuses données des pages du milieu seront perdues.

 

Comment résoudre ce genre de problème de saut de page ?

Il est facile de résoudre un tel problème : il suffit de modifier le XPath pour s'assurer qu'il localisera toujours le bon bouton "Suivant".

  • Observez le bouton suivant dans un navigateur ordinaire pour obtenir son code source

1.png

Il y a un attribut title dans la balise A. Nous pouvons l'utiliser pour écrire le XPath: //a[@title='Next']  (Découvrez comment écrire un XPath ici )

 

  • Entrez le XPath dans Octoparse et vérifiez s'il peut toujours localiser le bon bouton suivant

gif_1_.gif

 

Tips!

Après avoir configuré une boucle de pagination dans une tâche, vous feriez mieux de cliquer manuellement sur l'action "cliquer pour paginer" pour accéder aux multiples pages, comme présenté dans ce tutoriel, afin de vérifier si le XPath généré automatiquement peut localiser avec précision le bouton suivant.

Veuillez vous référer à l'article suivant pour plus de détails sur l'utilisation de XPATH dans Octoparse.

Personnaliser l'élément XPath

 

Auteur: Lesley

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter