undefined

Leçon 3: Affiner vos données

Monday, October 18, 2021 10:42 AM
Vous avez réussi à capturer les points de données cibles de la page Web, mais les données ne sont peut-être pas exactement comme vous le souhaitez. Dans ce tutoriel, nous vous présenterons quelques méthodes pratiques pour vous aider à affiner l'ensemble de vos données après les avoir extraitées. 
 
Vous êtes prêt? C'est parti!
 

Renommer/déplacer/supprimer un champ

Dès que les données sont extraites et affichées dans l'aperçu, vous pouvez ensuite les parcourir tout entièrement et commencer à les structurer. Pour les affiner, vous pouvez notamment renommer, réorganiser, dupliquer les champs de données et supprimer ceux qui ne sont pas démandés par votre projet.

Pour renommer un champs, cliquez sur l'icône en forme de crayon juste à côté du nom du champ, puis entrez directement le nouveau nom. Tenez en compte que seumlement des chiffres, des lettres et "_" sont acceptables pour nommer les champs.

 

6666666666666666666666.gif


Pour déplacer un champ, placez votre curseur avant le champ et attendez que le hand.png apparaisse, puis, traînez et déposez le champ au bon endroit.

 

1.gif

 

Pour supprimer un champ, cliquer sur le bouton "Show More" et sélectionnez "Delect".

 

 

2.png

 

 

 

Nettoyer les données 

Octoparse propose des méthodes divers pour vous aider à nettoyer vos données. Par exemple, vous pouvez remplacer une chaîne de texte, couper des espaces supplémentaires, ajouter un préfixe / suffixe, remplacer une chaîne par RegEx, reformater la date / l'heure, etc. Vous pouvez nettoyer tous les champs de données avec la méthode que vous appréciez jusqu'à ce que les données répondent à vos besoins. Certaines d'entre elles auraient parfois besoins d'être gérées l'expression pour qu'elle soit régulière. Dans ce cas-là, vous pouvez utiliser l'outil RegEx d'Octoparse pour faciliter votre travail.

Dans l'aperçu des données, cliquez avec le bouton droit sur l'icône "Show More" du champ de données que vous souhaitez nettoyer, et sélectionnez "Clean Data".

2.png

Cliquez sur "Add Step", puis sélectionnez l'action que vous souhaitez appliquée sur les données. Vous pouvez continuer à ajouter d'autres étapes jusqu'à ce que la forme de données réponde à vos besoins.

 

5987.png

 

 

Remplacer: remplacer une(des) chaîne(s) spécifique(s) des données extraites par une (des) nouvelle(s) chaîne(s) appréciée(s).

Remplacer avec une Expression Régulière: utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) à l'intérieur des données extraites par la(les) chaîne(s) que vous souhaitez.

Correspondre avec une Expression Régulière: utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.

Couper les espaces: supprimer le(s) espace(s) indésirable(s) au début ou / et à la fin des données extraites.

Ajouter un préfixe:ajouter une(des) chaîne(s) au début des données extraites.

Ajouter un suffixe: ajouter une(des) chaîne(s) à la fin des données extraites.

Reformater la date/l'heure extraite: ajuster la date / l'heure extraite à l'un des 14 formats intégrés ou à votre propre format personnalisé.

Conversion d'horodatage: L'horodatage est une chaîne ou un message codé qui est utilisé pour identifier une date et une heure enregistrées. Vous pouvez utiliser la conversion d'horodatage pour convertir une chaîne au format horaire correct.

HTML: convertir automatiquement certaines signes HTML spécifiques en textes simples. Transcoder "& gt" en ">" et "& nbsp" en un espace par exemple.

 

Tips:

Pour en savoir plus sur le reformatage des données et l'outil RegEx avec Octoparse ? Cliquez ici !

  

Acquérir le code HTML

Lorsque l'autodétection est utilisée pour capturer n'importe quelle donnée d'une page web, Octoparse extrait automatiquement le texte et l'URL des éléments. Cependant, vous pouvez personnaliser manuellement le champ de données et indiquer à Octoparse d'extraire tout code HTML à la place.

Dans l'aperçu des données, cliquez sur l'icône "show more" et sélectionnez "Customize field", puis choisissez comment vous souhaitez capturer les données sélectionnées. 

9.png

 

  

Extraire des attributs de la page, la date l'heure

Octoparse propose plusieurs champs de données prédéfinis que vous pouvez utiliser pour obtenir commodement des attributs de la page, des données actuelles, l'heure, ou d'autres valeurs fixes.

  • Des données actuelles & l'heure: la date et l'heure à laquelle les données sont extraites.
  • Des attributs de la page: URL/titre de la page, meta mot-clé, meta description, et le code source HTML.
  • Valeur fixe: toutes les valeurs fixes que vous avez défini.

Cliquez sur le signe + dans le coin supérieur droit de l'aperçu des données. Sélectionnez les champs de données prédéfinis que vous souhaitez ajouter à vos données.

 

 14.png

 

Jusqu'à ici, nous avons parcouru toutes les étapes pour créer et affiner votre flux de travail, et il est temps de lancer un test! >> Leçon 4: Pré-tester la tâche

 

Auteur : L'équipe Octoparse

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter