undefined

Régler la pagination (sans bouton "Suivant")

Thursday, July 01, 2021 10:28 AM

Si vous envisagez de scraper un site Web, vous souhaitiez probablement naviguer à travers de différentes pages du site Web et extraire des données de chacune d'entre elles. Pour ce faire, la première étape est de bien identifier le type de pagination qu'applique le site Web et de travailler à partir de là. Voici quelques exemples :

  • Paginer avec le bouton "Suivant"
  • Paginer sans le bouton "Suivant"
  • Paginer avec un défilement infini
  • Paginer avec le bouton "Charger plus"

Dans ce tutoriel, nous nous concentrerons sur la façon de créer une action de pagination lorsqu'il n'y a pas de bouton "page suivante" sur la page. Plus précisément, ce sont des sites Web qui nécessite de cliquer sur les liens numérotés pour tourner la page, comme l'image ci-dessous.

mceclip0.pngmceclip1.png

Maintenant, explorons les différentes manières que vous pouvez adopter pour créer une action de pagination sans bouton de "page suivante" dans Octoparse.

 

1. Créer une pagination avec l'Auto-détection

Si vous créez une nouvelle tâche avec l'auto-détection, Octoparse recherchera automatiquement les données et les liens de pagination sur la page Web. 

mceclip0.png

 

Tips!

Si vous avez activé l' "auto-détection" dans les paramètres, le processus de détection automatique sera lancé automatiquement.

 

Si Octoparse a détecté des liens de pagination sur la page Web, les options de pagination seront fournies dans le panneau Tips à la fin du processus d'auto-détection. Vous pouvez cliquer sur "Vérifier" pour voir le lien détecté par Octoparse ou cliquer sur "Modifier" pour le modifier s'il n'a pas été détecté correctement.

mceclip1.png

Comme nous le savons tous, les pages Web pourraient se présenter sous de nombreuses formes différentes. Il est donc possible que l'auto-détection ne parvient pas à détecter les liens de pagination ou ne les a pas détecté correctement. Dans ce cas-là, vous pouvez vous tourner vers l'une des solutions ci-dessous.

 

2. Utiliser la fonctionnalité "Générer par lots" pour créer les URL de toutes les pages

Un moyen alternatif mais très efficace pour scraper plusieurs pages d'un site Web: collecter d'abord les URL de toutes les pages que vous voulez scraper et créer une tâche avec la liste d'URL collectées.

Regardez attentivement les URL de différentes pages, remarquez-vous quelque chose spéciale?

 

mceclip3.png

Si vous voyez un modèle d'URL similaire à l'exemple ci-dessus, avec seulement le changement de numéro de page dans les URL des différentes pages, vous pouvez facilement générer par lots autant d'URL de pages que nécessaire pour les scraper. Une fois que vous avez fini de générer les liens, Octoparse continuera de gratter les pages automatiquement.

 

3. Créer une pagination manuellement  

Même si l'auto-détection ne fonctionne pas et que les URL de page n'ont pas de modèle évident, vous pouvez toujours créer une action de pagination manuellement.

Ce processus peut être accompli en deux étapes. Tout d'abord, écrivez/trouvez le XPath de l'élément de page qui vous amène réellement à la page suivante (par exemple, si vous êtes sur la page 1, alors vous devriez cliquer sur la page 2 ; si vous êtes sur la page 2, vous voudriez cliquer sur la page 3, ainsi de suite), et deuxièmement, réviseriez le XPath de l'action "Cliquer pour paginer" générée dans le workflow d'Octoparse. Cela vous semble un peu compliqué ? Pas de soucis, voyons ensemble un exemple.

Tips!

La connaissance de XPath n'est pas obligatoire mais extrêmement utile pour créer une tâche plus précise, qui peut satisfaire concrètement vos besoins dans Octoparse. Découvrez Qu'est-ce que XPath et comment l'utiliser dans Octoparse pour savoir plus sur l'utilisation de XPath, afin de créer le scraper Web parfait.

 

Supposons que vous deviez créer une étape de pagination pour cette page Web (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) manuellement. 

Étape 1. Chargez la page dans le navigateur intégré d'Octoparse et cliquez sur le lien du numéro de page "1". Ensuite, sélectionnez "Cliquer en boucle sur chaque élément". Un "élément de boucle" sera généré automatiquement dans le workflow.

mceclip4.png

 

Étape 2. Quittez l'application Octoparse pour un moment et suivez les étapes ci-dessous pour écrire/trouver le XPath dont vous avez besoin pour configurer l'action de pagination.

1) Copiez et collez l'URL de page actuelle (http://www.enzolifesciences.com/product-listing/?product_type=Antibodies&application=&text=) dans votre propre navigateur (Chrome par exemple). Maintenant, vous devez télécharger un outil complémentaire de navigateur appelé XPath Helper. 

2) Lancez XPath Helper dans votre navigateur.

 mceclip0.png

3) Localisez les numéros de page sur la page Web, cliquez avec le bouton droit sur le lien du numéro de page "1" et sélectionnez l'option Inspecter.

mceclip1.png

4) Maintenant, votre écran devrait ressembler à l'image ci-dessous. Le code en surbrillance correspond au lien de la page 1.

mceclip3.png

5) Ensuite, faites un clic droit sur le code en surbrillance, sélectionnez "Copier", puis "Copier XPath". Le XPath du lien numéro de page "1" sera ainsi copié.

mceclip5.png

C'est le XPath que vous venez de copier: 

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b

6) Regardez le code source, et vous constaterez que la page-2 est située une ligne en dessous de l'élément page-1.

mceclip7.png

En utilisant la syntaxe XPath "following-sibling" qui suit le nœud suivant, vous pouvez modifier le XPath de l'élément page-1 copié pour suivre la page qui le suit (dans ce cas, page-2).

Le XPath correct qui va toujours localiser la page suivante après la page actuelle est donc:

//*[@id="cs2-pagebrowsertop"]/div/div[2]/table/tbody/tr/td[3]/b/following-sibling::a[1]

Remarque : en ajoutant "/following-sibling::a[1]" à la fin du XPath précédent, il recherche désormais le premier élément href (a[1]) suivant l'élément de première page.

Entrez le bon XPath dans la section Query de XPath Helper, vous pouvez voir que la page "2" est correctement localisée à l'aide de XPath.

mceclip8.png

 

 

Étape 3. Maintenant, vous avez obtenu le bon XPath et l'avez testé, revenez à Octoparse pour remplacer le XPath actuel par le nouveau XPath.

Double-cliquez sur "Pagination" pour ouvrir le menu des paramètres. 

 

 

mceclip5.png                                

Remplacez le XPath actuel par le nouveau XPath. Cliquez sur "OK" pour enregistrer.

mceclip9.png

Étape 4Vérification finale! Cliquez sur la case Pagination, puis sur l'action Cliquer pour Paginer, Octoparse devrait passer à la page suivante si tout est configuré correctement. Si nécessaire, répétez le processus pour savoir plus sur le fonctionnement de l'opération de pagination..

mceclip10.png

 

Si vous avez toujours du mal à gérer la pagination sans le bouton suivant, envoyez un ticket à notre équipe d'assistance! Nous sommes là pour vous aider.

 

Artículo en español:  Tratar la paginación (sin botón "Siguiente")

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Vanny

Editeur: Isabel

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter