undefined

Comment extraire des données en faisant défiler la page (Version 8.2)

Wednesday, June 09, 2021 5:29 PM

Sur beaucoup de sites Web, on doit faire affiler la page vers le bas pour charger le nouveau contenu, Twitter par exemple. Pour extraire des données de ce genre de sites Web, il est recommandé d'utiliser la fonctionnalité nouvellement lancée dans Octoparse 8.2.2 : Faire défiler la page.

 

Les versions précédentes d'Octoparse adopte la méthode de faire défiler la page jusqu'en bas pour commencer à extraire toutes les données de la page à la fois. Pour spécifier, si les temps de répétition sont définis à 20, Octoparse ne commencera à extraire les données avant qu'il n'ait fait défiler la page 20 fois. Pour obtenir plus d'informations, veuillez consulter Régler la pagination (avec le bouton "Charger plus").

Cependant, avec la fonctionnalité "Faire défiler la page", Octoparse 8.2.2 est maintenant capable d'extraire des données tout en faisant défiler la page. Si les temps de répétition sont définis à 20, il extraira les données nouvellement chargées chaque fois qu'il fait défiler la page, jusqu'à ce qu'il finisse ces 20 répétitions.

Avec Octoparse 8.2.2, le processus de collecte des données devient plus stable, ce qui évite le cas de n'avoir aucune donnée scrapée même après plusieurs fois de défilement de page.

 

Comment utiliser la fonctionnalité "Faire défiler la page" ?

Dans ce tutoriel, nous vous montrerons comment appliquer la fonctionnalité mentionnée ci-dessus dans Octoparse 8.2.2. Vous pouvez utiliser cette URL pour suivre : https://biomarket.com.ar/product-category/almacen/desayuno/.

 

1) Utiliser l'algorithme Auto-détection 

2) Configurer le défilement de page manuellement

 

1) Utiliser l'algorithme Auto-détection 

Étape 1: Saisissez la(les) URL cible(s) et cliquez sur "Démarrer". Sélectionnez "Détecter automatiquement les données de la page Web" dans le panneau Tips.

Octoparse commencera à détecter les données de la page. Attendez que cela se termine.

 

Autodetct.gif

 

Étape 2: Modifier les paramètres de défilement

  • Cliquez sur "Modifier" sous "Ajouter un défilement de page".

Le mode de défilement, les temps de répétition et le temps d'attente ont été respectivement définis à "vers le bas de la page", "100" et "1s". 

"Arrêter de faire défiler la page lorsqu'il n'y a plus de nouveau contenu à charger" est coché par défaut, ce qui signifie qu'Octoparse arrêtera de faire défiler la page automatiquement lorsqu'il n'y aura plus de contenu à charger sur la page Web actuelle, ou lorsque le nombre maximum de défilements sera atteint.

  • Cliquez sur "Confirmer" pour enregistrer les paramètres ou modifiez ces paramètres si nécessaire. Assurez-vous de configurer suffisamment de temps de défilement et d'intervalles appropriés entre deux défilements.

editpagescroll.gif

 

Étape 3: Create the workflow with the settings

  • Cliquez sur "Créer un flux de travail" dans le panneau de Tips pour générer le flux de travail.

Comme montré, une action de défilement de page a été configurée et l'élément de boucle a été intégré. Vous pouvez aussi accéder aux paramètres de la boîte de défilement de page pour la modifier si nécessaire.

1.gif

 

 

Étape 4: Enregistrer et exécuter la tâche

  • Cliquez sur "Enregistrer" et "Exécuter".
  • Choisissez "Exécuter sur votre appareil".

Dans la fenêtre d'extraction, vous constaterez qu'Octoparse gratte la page chaque fois après un défilement .

2.gif

 

2) Configurer le défilement de page manuellement

Étape 1: Saisissez la(les) URL cible(s) et cliquez sur "Démarrer"

input.gif

 

Étape 2: Ajouter manuellement un défilement de page

  • Ajoutez un élément de boucle sous "Aller à la page Web".
  • Double-cliquez sur l'élément de boucle ou cliquez sur Paramètres d'action pour sélectionner le défilement de page comme mode de boucle.
  • Configurez le mode de défilement, les temps de répétition et le temps d'attente selon vos besoins.
  • Cliquez sur OK".

m1.gif

 

Étape 3: Configurez un élément de boucle pour l'extraction de données et faites-le glisser dans l'élément de boucle créé.

m2.gif

 

Étape 4: Enregistrer et exécuter la tâche

Cliquez sur "Enregistrer" et "Exécuter" et choisissez "Exécuter sur votre appareil".

 

Auteur: Rita

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter