Leçon 3: Affiner vos données
Monday, October 18, 2021 10:42 AMRenommer/déplacer/supprimer un champ
Dès que les données sont extraites et affichées dans l'aperçu, vous pouvez ensuite les parcourir tout entièrement et commencer à les structurer. Pour les affiner, vous pouvez notamment renommer, réorganiser, dupliquer les champs de données et supprimer ceux qui ne sont pas démandés par votre projet.
Pour renommer un champs, cliquez sur l'icône en forme de crayon juste à côté du nom du champ, puis entrez directement le nouveau nom. Tenez en compte que seumlement des chiffres, des lettres et "_" sont acceptables pour nommer les champs.
Pour déplacer un champ, placez votre curseur avant le champ et attendez que le apparaisse, puis, traînez et déposez le champ au bon endroit.
Pour supprimer un champ, cliquer sur le bouton "Show More" et sélectionnez "Delect".
Nettoyer les données
Octoparse propose des méthodes divers pour vous aider à nettoyer vos données. Par exemple, vous pouvez remplacer une chaîne de texte, couper des espaces supplémentaires, ajouter un préfixe / suffixe, remplacer une chaîne par RegEx, reformater la date / l'heure, etc. Vous pouvez nettoyer tous les champs de données avec la méthode que vous appréciez jusqu'à ce que les données répondent à vos besoins. Certaines d'entre elles auraient parfois besoins d'être gérées l'expression pour qu'elle soit régulière. Dans ce cas-là, vous pouvez utiliser l'outil RegEx d'Octoparse pour faciliter votre travail.
Dans l'aperçu des données, cliquez avec le bouton droit sur l'icône "Show More" du champ de données que vous souhaitez nettoyer, et sélectionnez "Clean Data".
Cliquez sur "Add Step", puis sélectionnez l'action que vous souhaitez appliquée sur les données. Vous pouvez continuer à ajouter d'autres étapes jusqu'à ce que la forme de données réponde à vos besoins.
Remplacer: remplacer une(des) chaîne(s) spécifique(s) des données extraites par une (des) nouvelle(s) chaîne(s) appréciée(s).
Remplacer avec une Expression Régulière: utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) à l'intérieur des données extraites par la(les) chaîne(s) que vous souhaitez.
Correspondre avec une Expression Régulière: utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.
Couper les espaces: supprimer le(s) espace(s) indésirable(s) au début ou / et à la fin des données extraites.
Ajouter un préfixe:ajouter une(des) chaîne(s) au début des données extraites.
Ajouter un suffixe: ajouter une(des) chaîne(s) à la fin des données extraites.
Reformater la date/l'heure extraite: ajuster la date / l'heure extraite à l'un des 14 formats intégrés ou à votre propre format personnalisé.
Conversion d'horodatage: L'horodatage est une chaîne ou un message codé qui est utilisé pour identifier une date et une heure enregistrées. Vous pouvez utiliser la conversion d'horodatage pour convertir une chaîne au format horaire correct.
HTML: convertir automatiquement certaines signes HTML spécifiques en textes simples. Transcoder "& gt" en ">" et "& nbsp" en un espace par exemple.
Tips: Pour en savoir plus sur le reformatage des données et l'outil RegEx avec Octoparse ? Cliquez ici ! |
Acquérir le code HTML
Lorsque l'autodétection est utilisée pour capturer n'importe quelle donnée d'une page web, Octoparse extrait automatiquement le texte et l'URL des éléments. Cependant, vous pouvez personnaliser manuellement le champ de données et indiquer à Octoparse d'extraire tout code HTML à la place.
Dans l'aperçu des données, cliquez sur l'icône "show more" et sélectionnez "Customize field", puis choisissez comment vous souhaitez capturer les données sélectionnées.
Extraire des attributs de la page, la date & l'heure
Octoparse propose plusieurs champs de données prédéfinis que vous pouvez utiliser pour obtenir commodement des attributs de la page, des données actuelles, l'heure, ou d'autres valeurs fixes.
- Des données actuelles & l'heure: la date et l'heure à laquelle les données sont extraites.
- Des attributs de la page: URL/titre de la page, meta mot-clé, meta description, et le code source HTML.
- Valeur fixe: toutes les valeurs fixes que vous avez défini.
Cliquez sur le signe + dans le coin supérieur droit de l'aperçu des données. Sélectionnez les champs de données prédéfinis que vous souhaitez ajouter à vos données.
Jusqu'à ici, nous avons parcouru toutes les étapes pour créer et affiner votre flux de travail, et il est temps de lancer un test! >> Leçon 4: Pré-tester la tâche
Auteur : L'équipe Octoparse