undefined

Éliminer les doubles

Friday, July 16, 2021 3:21 PM

Lors de l'extraction de données, vous pouvez rencontrer une telle situation - il y a des doublons dans la sortie de données.

Octoparse propose deux manières pour les supprimer.

  • Supprimer les doublons par ligne (par défaut)
  • Supprimer les doublons par des champs de données spécifiques (définis manuellement, uniquement pour Octoparse 8.1.16 et versions ultérieures)

 

1. Supprimer les doublons par ligne (par défaut)

Une fois l'extraction des données terminée, Octoparse offre une fonction qui peut supprimer les doublons automatiquement après l'extraction de données.

Si tous les champs de données d'une certaine ligne de données sont les mêmes que les autres lignes, alors cette ligne de données sera reconnue comme un doublon. Octoparse ne conservera que la 1ère ligne de données extraite et supprimera les autres.

Exemple: La 1ère et la 4ème ligne de données ci-dessous sont les mêmes dans des champ de données différents, ce sont donc des doublons. Octoparse supprimera donc par défaut les autres données et seule la 1ère ligne de données sera conservée.

mceclip1.png 

 

2.  Supprimer les doublons par des champs de données spécifiques (définis manuellement)

Remarque : cette fonctionnalité n'est offerte que par Octoparse 8.1.16 et versions ultérieures.

Mécanisme

Lorsque vous personnalisez le workflow des tâches, vous pouvez le configurer pour supprimer les doublons en fonction de certains doublons.

La suppression de doublons, basée sur un ou plusieurs champs de données vérifiera si la valeur du champ de données sélectionné est la même que la valeur des autres lignes. Ce paramètre ne comparera que les champs de données sélectionnés. Tant que les valeurs des champs de données sélectionnés sont les mêmes, les données seront reconnues comme un doublon. Les autres champs de données non sélectionnés ne seront pas pris en compte. Après avoir supprimé les doublons, Octoparse ne conservera que la première ligne de données extraites.

Exemple 1Si nous sélectionnons "Champ2" pour comparer les doublons, nous pouvons noter que la 1ère, 2ème, 4ème ligne de données ont la même valeur pour "Champ2". Dans ce cas-là, les 1ère, 2ème, 4ème lignes de données seront reconnues comme des doublons. Octoparse les supprimera et ne conservera que la 1ère ligne de données extraite.

mceclip2.png

 

Exemple 2Si nous sélectionnons "Champ3" et "Champ4" pour comparer les doublons, nous pouvons constater que la 1ère et la 4ème ligne de données ont la même valeur pour "Champ3" et "Champ4". Dans ce cas-là, la 1ère et la 4ème ligne de données seront reconnues comme des doublons. Octoparse les supprimera et ne conservera que la 1ère ligne de données extraite.

mceclip3.png

 

Où supprimer les doublons ?

 

Etapes:

1. Configurez la tâche et choisissez les champs de données que vous voulez collecter

2. Cliquez d'abord sur l'icône mceclip5.png dans le coin supérieur droit du panneau "Aperçu des données". Choisissez ensuite "Supprimer les doublons" pour accéder à la page de paramètres

mceclip4.png

3. Sélectionnez le(s) champ(s) de données que vous souhaitez comparer. Après la sélection, cliquez sur "OK" pour appliquer les paramètres.

mceclip6.pngRemarque : Cliquez à nouveau sur l'icône mceclip5.png et vous verrez que le paramètre est enregistré.

mceclip7.png

 

Remarque spéciale:

Pour les exécutions Cloud, Octoparse ne comparera que les données historiques avec les mêmes paramètres de suppression des doublons pour supprimer les doublons.

Voici un exemple.

Définissez votre premier paramètre de déduplication comme A (par exemple, sélectionnez "Champ1" pour comparer), et vous aurez le premier lot de données cloud.

Ensuite, revenez à votre tâche et modifiez le paramètre comme B (par exemple, sélectionnez "Champ2" pour comparer), et vous obtiendrez le 2ème lot de données Cloud. Ce lot ne sera pas comparé au 1er lot pour la suppression des doublons.

Après cela, si vous redéfinissez le paramètre comme A (par exemple, sélectionnez "Champ1" pour comparer), vous aurez le 3ème lot de données Cloud et il sera comparé au 1er lot de données Cloud pour la suppression des doublons. Les doublons seront supprimés automatiquement. Il ne sera pas comparé au 2ème lot pour la suppression des doublons.

 

Tutorial en español:  Remover duplicados

También puedes leer más tutoriales de web scraping en sitio web oficial

 

Si quelque chose n'est pas clair pour vous, ou si vous avez un cas d'utilisation spécifique mais n'êtes pas sûr si cette fonctionnalité soit utile ou pas, n'hésitez pas à soumettre un ticket pour nous contacter!

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter