undefined

Pourquoi Octoparse récupère-t-il moins de données alors qu'il devrait y en avoir plus ? (Version 8)

Friday, July 16, 2021 10:29 AM

Après avoir configuré une tâche l'avoir testé sur votre appareil local, vous pouvez rencontrer parfois de tel problème :

Le nombre de sorties de données ne correspond pas au nombre de résultats sur le site Web cible. 

Si vous rencontrez le même problème, veuillez examiner les causes possibles et les solutions ci-dessous pour voir si cela peut vous aider dans votre situation.

 

 

1.Problème de Pagination

Si le site Web cible comporte plusieurs pages, vous devez d'abord vérifier si l'étape de pagination fonctionne bien pour passer à la page suivante en continu.

Comment le vérifier ?

- Accédez au Workflow.

- Cliquez sur la partie extérieure du bloc de pagination, puis cliquez sur l'étape "Cliquez pour paginer". 

- Répétez les actions ci-dessus pour voir si Octoparse puisse passer correctement à la page suivante tout le temps.

mceclip3.png

Si l'étape de pagination est correctement configurée, vous pouvez ignorer cette partie et vérifier la prochaine cause possible.

Si vous constatez qu'Octoparse saute certaines pages ou saute directement à la dernière page, vous devez corriger le XPath de l'étape de pagination.

Comment réviser XPath pour la pagination ?

Consultez les tutoriels suivants ou consultez notre Equipe d'Assistance pour demander de l'aide.

Remarque: Si la page Web applique un défilement infinitif vers le bas pour charger le contenu et que vous constatez qu'il y a des données manquantes, vous pouvez consulter cettes FAQ pour plus de détails :

 

2. Chargement de la Page

Lorsque vous testez la tâche sur votre appareil local, vous devez faire attention à la partie supérieure de la fenêtre de progression, qui montre comment Octoparse passe de la page actuelle à la page suivante ou ouvre une nouvelle page.

Si vous constatez que le navigateur est passé déjà à la page suivante avant que la page soit complètement chargée, vous pouvez essayer les méthodes suivantes pour faciliter le chargement de la page :

a) Un temps d'attente plus long pour certaines étapes (par exemple, "Extraire les Données")

mceclip2.png

b) Augmenter le délai d'attente pour certaines étapes (par exemple, "Aller à la page Web", "Cliquer")

  • Délai d'attente pour l'action "Aller à la page Web"

mceclip0.png

  • Délai d'expiration AJAX pour "Cliquer sur l'élément"

1.png

c) Défilement de page (par exemple, "Aller à la page Web", "Cliquer")

mceclip1.png

 

 

3. Mode de Boucle

Habituellement, après avoir vérifié l'étape de pagination, vous devez vérifier ensuite l'élément de boucle, qui parcourt chaque élément de la page. En ce qui concerne l'élément de boucle, veuillez prêter attention au mode de boucle, en particulier à la "liste fixe".

Les listes fixes utilisent des positions fixes d'éléments pour les localiser. Mais si la structure de la page change légèrement, par exemple, nombre différent ou positions différentes d'éléments, vous risquez de recevoir un message d'erreur comme celui-ci :

"Impossible de trouver un élément correspondant à cette expression XPath"

mceclip5.png

Pour résoudre ce problème, vous devriez d'abord passer à "Liste Variable" et écrire un nouveau XPath.

mceclip4.png

Vous pouvez consulter cet exemple pour plus de détails : Défilement Infini a été configuré mais aucun nouvel élément n'a été ajouté à la liste ?

 

Si vous ne parvenez toujours pas à résoudre ce problème même après avoir essayé les méthodes ci-dessus, veuillez nous envoyer la tâche avec les détails, afin que nous puissions vous aider. N'hésitez pas à nous contacter par e-mail (support@octoparse.com) ou à soumettre un ticket ici..

 

Auteur: Vanny

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter