Supprimer les duplications

Ce tutoriel pésente comment supprimer des duplications.

Mis à jour il y a plus d’une semaine

La duplication de l'ensemble de données peut être due au fait que les sites Web contiennent eux-mêmes des données en double, ou que la tâche a pu être configurée pour saisir les mêmes données deux fois ou plus. Dans ce cas, il existe deux façons de supprimer les duplications en fonction de vos besoins de données :


1.Supprimer les duplications lorsque toutes les lignes de données sont identiques (paramètre par défaut)

Lorsque l'exécution est terminée, Octoparse traite par défaut les lignes de données comme des duplications lorsque les lignes entières sont identiques (tous les champs de données sont les mêmes). Vous pouvez supprimer les doublons et ne conserver que les lignes uniques.

Exemple : Les lignes #1 et #4 ci-dessous ont les mêmes valeurs pour chaque champ de données, ce sont donc des duplications. Après le dé-dup, Octoparse ne gardera que la première ligne de données extraite, qui est la ligne #1 dans ce cas.

mceclip1.png

2.Supprimer les duplications lorsque les champs de données sélectionnés sont identiques (réglage manuel, uniquement pour les versions 8.1.16 et supérieures)

Note : Cette fonctionnalité est pour Octoparse 8.1.16 et supérieur.

Lorsque vous construisez le flux, vous pouvez personnaliser davantage la tâche pour supprimer les lignes de données qui partagent les mêmes valeurs pour un ou plusieurs champs de données. Les lignes de données seront traitées comme des doublons tant que les valeurs des champs de données sélectionnés sont les mêmes. Les autres champs de données non sélectionnés ne seront pas pris en compte.

Exemple 1 : Si nous sélectionnons "Champ2" à comparer pour la déduplication des données, alors la ligne #1, la ligne #2 et la ligne #4 ont toutes la même valeur pour "Champ2". Dans ce cas, ces lignes de données seront considérées comme des duplications. Après le dédoublonnage, Octoparse ne conservera que la première ligne de données extraite, qui est la ligne #1 dans ce cas, et se débarrassera des lignes #2 et #4.

mceclip2.png

Exemple 2 : Si nous sélectionnons "Champ3" et "Champ4" à comparer pour la déduplication des données, alors la ligne #1 et la ligne #4 ont toutes deux les mêmes valeurs pour "Champ3" et "Champ4" respectivement. Dans ce cas, les lignes #1 et #4 seront considérées comme des doublons. Après la déduplication, Octoparse ne conservera que la première ligne de données extraite, qui est la ligne #1 dans ce cas, et se débarrassera automatiquement de la ligne #4.

mceclip3.png

Suivez les étapes ci-dessous pour personnaliser les paramètres de déduplication :

  • Configurez la tâche et les champs de données que vous devez collecter.

  • Cliquez sur l'icône dans le coin supérieur droit de la section "Aperçu des données".

11.png
  • Sélectionnez le(s) champ(s) de données que vous souhaitez comparer pour la déduplication. Après la sélection, cliquez sur Appliquer pour enregistrer les paramètres.

10.png

Conseil :

Pour les exécutions Cloud, seules les données qui ont été traitées avec le même paramètre de dédoublonnage seront comparées et dédoublonnées de manière continue.

Par exemple, supposons que vous définissiez le premier paramètre de dédoublonnage comme A (par exemple, sélectionnez "Champ1" pour comparer) et que vous obteniez le premier bain de données Cloud.

Ensuite, vous revenez à votre tâche et modifiez le paramètre de dédoublonnage en B (par exemple, sélectionnez "Champ2" pour comparer) et obtenez le deuxième lot de données du nuage. Ce deuxième lot de données ne sera pas comparé au premier lot de données pour la déduplication.

Après cela, si vous changez le paramètre pour revenir à A (par exemple, sélectionnez "Champ1" pour comparer) et obtenez le troisième lot de données du nuage. Ce troisième lot de données sera comparé et dédupliqué par rapport au premier lot de données Cloud.

Avez-vous trouvé la réponse à votre question ?