Page Scroll-Down

Dans ce tutoriel on va vous introduire comment configurer un défilement de page pour faire scroller automatiquement la page dans Octoparse.

Mis à jour il y a plus d’une semaine

Certains sites Web (comme ceux de commerce électronique) doivent faire défiler la page jusqu'en bas pour charger les nouveaux contenus. Dans ce cas, vous pouvez configurer un défilement de page pour faire scroller automatiquement la page dans Octoparse. Cette méthode est particulièrement utile pour extraire des pages Web qui utilisent le défilement infinitif (infinitive scrolling).

Il existe deux façons de configurer le défilement de la page :

Configurer le défilement pour l'action "Aller à la page Web" ou l'action "Cliquer sur l'élément".

  • Cliquez sur l'action Aller à la page Web (ou un élément de clic) pour accéder au menu des paramètres. Allez dans l'onglet Options.

  • Pour configurer le défilement de la page, cochez la case "Scroll down the page after it is loaded".

  • Choisissez la zone de défilement

Par défaut : Octoparse fera défiler toute la page web.

Partiel : Certains sites web ne présentent pas qu'un seul défilement, comme les commentaires sur Google Maps. Pour localiser la zone exacte dont vous avez besoin, vous pouvez sélectionner partiel et saisir le Xpath précis de la zone.

  • Choisissez comment vous souhaitez scroller la page vers le bas
    Il existe deux façons de faire défiler la page : "Scroll for one screen" et "scroll to the bottom of the page"

Faire défiler jusqu'au bas de la page : Octoparse fera défiler la page directement jusqu'au bas de la page sans s'arrêter au milieu de celle-ci. Vous devriez envisager d'utiliser cette option lorsque la page ne charge que des éléments lorsque vous atteignez le bas de la page, comme les avis de Google Play.

Défilement sur un seul écran : Octoparse fera défiler un seul écran à chaque fois. Pensez à utiliser cette option si la page charge du contenu lorsque vous la faites défiler en continu.

Le défilement sur un seul écran peut être utilisé pour tous les sites Web, tandis que le défilement vers le bas de la page ne fonctionne pas toujours pour certains sites Web. Nous vous recommandons de tester d'abord les options en faisant scroller la page manuellement, puis de choisir celle qui fonctionne le mieux pour votre page Web cible.

  • Configurez le temps d'attente et les temps de scroll.

Sélectionnez le temps d'attente approprié entre chacun des deux défilements. Vous pouvez choisir un temps d'attente plus long pour les pages qui prennent plus de temps à charger.

Ensuite, entrez un nombre pour les temps de défilement, qui correspond au nombre de fois que vous souhaitez répéter le défilement (c'est-à-dire le nombre de scrolls). Là encore, vous pouvez commencer par faire défiler la page Web cible manuellement, afin de déterminer le nombre de scrolls nécessaires pour charger toutes les informations requises.

Configurer le défilement avec un élément de boucle

  • Ajouter un élément de boucle au workflow

  • Choisissez la page de défilement comme mode de boucle.

  • Configurez les options de défilement comme nous l'avons montré ci-dessus.

Avez-vous trouvé la réponse à votre question ?