undefined

Pourquoi ai-je obtenu autant de doublons ? (Version 8)

Thursday, July 15, 2021 10:27 AM

La duplication dans Octoparse signifie que les lignes de données sont les mêmes dans tous les champs. S'il n'y a que quelques doublons, vous pouvez les supprimer lors de l'exportation des données.

Mais si vous n'obtenez qu'un petit nombre de lignes de données valides avec de nombreux doublons, c'est vraiment frustrant. Dans ce tutoriel FAQ, nous vous aiderons à résoudre ce problème.

 

Erreur 1 : lors du grattage de plusieurs pages, Octoparse revient toujours aux pages déjà grattées ou continue de gratter la dernière page.

Le XPath de pagination généré automatiquement peut ne pas toujours bien fonctionner. Si vous constatez qu'Octoparse continue à gratter les mêmes pages, vous devrez faire quelques ajustements.

 

Solution : modifier le XPath de pagination pour vous assurer qu'il localise précisément le bouton de la page suivante.

  • Cliquez pour ouvrir les paramètres de pagination
  • Entrez le nouveau XPath et cliquez sur OK pour l'enregistrer

1.png

Tips!

Vérifiez comment écrire un XPath ici Qu'est-ce que XPath et comment l'utiliser dans Octoparse

 

 

Erreur 2 : lors du grattage de plusieurs pages, le délai d'attente AJAX pour la pagination est trop court pour charger la page suivante et Octoparse continue de gratter les données de la page actuelle.

Pour les pages chargées avec AJAX, si le délai d'attente n'est pas suffisamment long, la page suivante ne peut pas être chargée, Octoparse continuera ainsi à gratte la page actuelle, ce qui produira des doublons.

 

Solution : Rallonger le délai d'expiration AJAX pour qu'il soit suffisamment long pour que la page se charge.

  • Cliquez pour ouvrir les paramètres de l'action "Cliquer pour paginer"
  • Sélectionnez une durée plus longue pour le délai d'expiration AJAX

2.png

 

Erreur 3 : lors du grattage d'une liste d'éléments, Octoparse ne gratte que la première ligne de données à plusieurs reprises ou un champ de données est toujours le même sur toutes les lignes.

Lorsque vous voulez qu'Octoparse parcoure une liste d'éléments pour obtenir des données, il peut continuer à extraire un même élément. Lorsque vous vérifiez les données extraites, vous constaterez qu'il y des champs fixes, c'est-à-dire ils sont toujours les mêmes sur toutes les lignes.

C'est parce que l'action "Extraire les Données" n'a rien à voir avec "Elément de Boucle". Pour associer les deux, vous devez sélectionner deux options dans Octoparse.

1. "Extraire les données dans la boucle" dans les paramètres "Extraire les données"

3.png

2. "XPath Relatif" dans les paramètres du champ de données

4.png

Avec les deux options sélectionnées, l'action "Extraire les données" et "Elément de boucle" seront associés et Octoparse grattera les données de chaque élément de boucle.

*Assurez-vous que l'option "Extraire les données de la boucle" est sélectionnée avant toute modification.

 

Solution 1: Recréer les champs

  • Après avoir coché "Extraire les données de boucle", cliquez sur "Elément de boucle" dans le workflow, puis cliquez sur "Extraire les Données"
  • Sélectionnez les données à gratter à partir du premier élément

1.gif

Solution 2: Modifier directement le XPath des champs

  • Ouvrez les paramètres de l'action "Extraire les données"
  • Cochez "Xpath Relatif " et entrez le bon XPath

2.gif

Tips!

Vérifiez comment écrire un XPath relatif ici.

 

 

Auteur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter