Toutes les collections
Octoparse 101
Leçon 3 : Gére les données
Leçon 3 : Gére les données
Mis à jour il y a plus d’une semaine

Dans cette leçon, nous allons vous donner quelques conseils pratiques pour gérer données si les données extraites ne ressemblent pas exactement à ce que vous voulez qu'elles soient.


Renommer / déplacer / dupliquer / supprimer un champ

Dès que les données sont extraites et affichées dans l'aperçu, vous pouvez ensuite les parcourir tout entièrement et commencer à les structurer. Vous pouvez notamment renommer, réorganiser, dupliquer les champs de données et supprimer ceux qui ne sont pas démandés par votre projet.

Pour renommer un champs, cliquez sur l'icône en forme de crayon juste à côté du nom du champ, puis entrez directement le nouveau nom. Tenez en compte que seumlement des chiffres, des lettres et "_" sont acceptables pour nommer les champs.


Pour déplacer un champ, placez votre curseur avant le champ. Lorsque le signe de la main apparaît, faites glisser le champ jusqu'au bon endroit.

déplacer un champ

Pour supprimer un champ, cliquer sur le bouton ... plus et sélectionnez "Supprimer le champ".


Nettoyer les données

Octoparse propose divers méthodes de nettoyage de données. Par exemple, vous pouvez remplacer une chaîne de texte, couper des espaces supplémentaires, ajouter un préfixe /suffixe, remplacer une chaîne par RegEx, reformater la date / l'heure, etc. Vous pouvez nettoyer tous les champs de données avec la méthode que vous appréciez jusqu'à ce que les données répondent à vos besoins. Dans certains cas, il faut l'expression régulière pour reformater les donées et alors, vous pouvez utiliser l'outil d'expression régulière d'Octoparse.

Dans l'aperçu des données, cliquez les trois petits points Plus du champ de données que vous souhaitez nettoyer, et sélectionnez "Nettoyer les données".

Cliquez sur "Ajouter une étape", puis sélectionnez l'action que vous souhaitez appliquer sur les données. Vous pouvez continuer à ajouter d'autres étapes jusqu'à ce que la forme de données réponde à vos besoins.

  • Remplacer : remplacer une(des) chaîne(s) spécifique(s) des données extraites par une (des) nouvelle(s) chaîne(s).

  • Remplacer avec une Expression Régulière : utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) à l'intérieur des données extraites par la(les) chaîne(s) que vous souhaitez.

  • Correspondre avec une Expression Régulière : utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.

  • Couper les espaces : supprimer le(s) espace(s) indésirable(s) au début ou / et à la fin des données extraites.

  • Ajouter un préfixe : ajouter des chaînes au début des données extraites.

  • Ajouter un suffixe : ajouter une(des) chaîne(s) à la fin des données extraites.

  • Reformater la date/l'heure extraite : ajuster la date / l'heure extraite à l'un des 14 formats intégrés ou à votre propre format personnalisé.

  • Conversion de l'horodatage : Un horodatage est une chaîne de messages codés utilisée pour identifier une date et une heure enregistrées. Vous pouvez utiliser la conversion d'horodatage pour convertir une chaîne au format horaire correct.

  • HTML: convertir automatiquement certaines signes HTML spécifiques en textes simples. Transcoder "& gt" en ">" et "& nbsp" en un espace par exemple.


Acquérir le code HTML

Lorsque la détection automatique est utilisée pour scraper des données à partir d'une page Web, Octoparse extrait en priorité le texte et l'URL des éléments sélectionnés. Cependant, vous pouvez personnaliser manuellement le champ de données et demander à Octoparse d'extraire le code HTML à la place.

Dans l'aperçu des données, cliquez sur l'icône Plus et sélectionnez "Personnaliser le champ"et choisir comment vous souhaitez extraire les données désirées.


Extraire les données du niveau de la page, la date & l'heure

Octoparse propose plusieurs champs de données pré-définis, vous permettant d'obtenir les données du niveau de la page actuelle, la date et l'heure, ou d'autres valeurs fixes.

  • Date & heure actuelle : la date et l'heure à laquelle les données sont extraites.

  • Données au niveau des pages : URL/titre de la page, meta mot-clé, méta description, et le code source HTML.

  • Valeur fixe : toutes les valeurs fixes que vous pouvez définir.

Cliquez sur le signe + dans le coin supérieur droit de l'aperçu des données. Sélectionnez les champs de données prédéfinis que vous souhaitez ajouter à vos données.

Avez-vous trouvé la réponse à votre question ?