undefined

Leçon 3: Affiner vos données

Tuesday, May 11, 2021 4:58 PM
Lorsque vous travaillez avec des données, la chose la plus importante est évidemment l'extraction des données, et juste après, le nettoyage de vos données. Dans ce tutoriel, nous vous présenterons quelques méthodes pratiques pour vous aider à affiner l'ensemble de vos données après les avoir extraitées.
 
 
Vous êtes prêt? C'est parti!
 

Renommer / déplacer / dupliquer / supprimer un champ

Dès que les données sont extraites et affichées dans l'aperçu, vous pouvez ensuite les parcourir tout entièrement et commencer à les structurer. Pour les affiner, vous pouvez notamment renommer, réorganiser, dupliquer les champs de données et supprimer ceux qui ne sont pas démandés par votre projet.

Pour renommer un champs, cliquez sur l'icône en forme de crayon juste à côté du nom du champ, puis entrez directement le nouveau nom. Tenez en compte que seumlement des chiffres, des lettres et "_" sont acceptables pour nommer les champs.

renameafile.gif


Pour déplacer un champ, placez votre curseur avant le champ et attendez que le hand.png apparaisse, puis, traînez et déposez le champ au bon endroit.

movefield.gif

 Pour dupliquer un champ, cliquez sur le bouton "Afficher plus" et sélectionnez "Copier". Le champ sélectionné sera dupliqué automatiquement.

duplicateafield.gif

Pour supprimer un champ, cliquer sur le bouton "Afficher plus" et sélectionnez "Supprimer".

deletefield.gif

Tips!

  • Vous pouvez aussi renommer/déplacer/dupliquer/supprimer les champs de données à travers "Paramètres d'action", qui est dans l'action "Extraire les données" de workflow

extractdatasetting.gif

  • Si vous avez une grande quantité de champs à supprimer, vous pouvez également les supprimer par lots. Cliquez sur l'icône "Paramètres d'action" dans l'action "Extraire les données". Cliquez sur l'icône "Supprimer les champs par lots" affiché sur le panneau de configuration, et sélectionnez les champs que vous voulez supprimer, puis cliquez sur "Supprimer".

batchdelete.gif

 

Nettoyer les données

Octoparse propose des méthodes divers pour vous aider à nettoyer vos données. Par exemple, vous pouvez remplacer une chaîne de texte, couper des espaces supplémentaires, ajouter un préfixe / suffixe, remplacer une chaîne par RegEx, reformater la date / l'heure, etc. Vous pouvez nettoyer tous les champs de données avec la méthode que vous appréciez jusqu'à ce que les données répondent à vos besoins. Certaines d'entre elles auraient parfois besoins d'être gérées l'expression pour qu'elle soit régulière. Dans ce cas-là, vous pouvez utiliser l'outil RegEx d'Octoparse pour faciliter votre travail.

Dans l'aperçu des données, cliquez avec le bouton droit sur l'icône "Afficher plus" du champ de données que vous souhaitez nettoyer, et sélectionnez "Nettoyer les données".

clean_data.png

Cliquez sur "Ajouter une étape", puis sélectionnez l'action que vous souhaitez appliquée sur les données. Vous pouvez continuer à ajouter d'autres étapes jusqu'à ce que la forme de données réponde à vos besoins.

addstep.png

 

  • Remplacer: remplacer une(des) chaîne(s) spécifique(s) des données extraites par une (des) nouvelle(s) chaîne(s) appréciée(s).
  • Remplacer avec une Expression Régulière: utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) à l'intérieur des données extraites par la(les) chaîne(s) que vous souhaitez.
  • Correspondre avec une Expression Régulière: utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.
  • Couper les espaces: supprimer le(s) espace(s) indésirable(s) au début ou / et à la fin des données extraites.
  • Ajouter un préfixe:ajouter une(des) chaîne(s) au début des données extraites.
  • Ajouter un suffixe: ajouter une(des) chaîne(s) à la fin des données extraites.
  • Reformater la date/l'heure extraite: ajuster la date / l'heure extraite à l'un des 14 formats intégrés ou à votre propre format personnalisé.
  • HTML: convertir automatiquement certaines signes HTML spécifiques en textes simples. Transcoder "& gt" en ">" et "& nbsp" en un espace par exemple.

Tips:

Pour savoir plus sur le reformatage des données et l'outil RegExexternal-link-symbol-1.png d'Octoparse? Consulter ici!

  

Acquérir le code HTML

Lors de l'utilisation de l'auto-détection pour scraper des données à partir d'une page Web, Octoparse choisira en priorité le texte et l'URL des éléments sélectionnés. Vous pouvez personnaliser les champs de données pour y ajouter le code HTML.

Dans l'aperçu des données, cliquez sur l'icône "Afficher plus" et sélectionnez "Personnaliser le champ".

customizefield.png

Choisissez ce que vous voulez extraire dans le Panneau "Personnaliser le champ" .

customizefield2.png

 

Extraire des attributs de la page, la date l'heure

Octoparse propose plusieurs champs de données prédéfinis que vous pouvez utiliser pour obtenir commodement des attributs de la page, des données actuelles, l'heure, ou d'autres valeurs fixes.

  • Des données actuelles & l'heure: la date et l'heure à laquelle les données sont extraites.
  • Des attributs de la page: URL/titre de la page, meta mot-clé, meta description, et le code source HTML.
  • Valeur fixe: toutes les valeurs fixes que vous avez défini.

Cliquez sur le signe + dans le coin supérieur droit de l'aperçu des données. Sélectionnez les champs de données prédéfinis que vous souhaitez ajouter à vos données.

 extractmeta.png

Jusqu'à ici, nous avons parcouru toutes les étapes pour créer et affiner votre flux de travail, il est temps de lancer un test! >> Leçon 4: Pré-tester la tâche

 

Artículo en español: Lección 3: Refina tus datos

También puede leer artículos de web scraping en el sitio web oficial.

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter