undefined

Affiner les données extraites (remplacer le contenu, ajouter un préfixe, etc)

Monday, July 19, 2021 11:42 AM

Au cours de votre projet de grattage Web, vous aurez peut-être besoin de nettoyer les champs de données extraits. Octoparse propose 8 options de nettoyage des données pour convertir les données extraites au format désiré.

Quand dois-je affiner les données extraites ?

Lorsque vous voulez appliquer un format de données spécifique sur un certain champ, vous pouvez utiliser notre fonction "Nettoyer les données" pour affiner les champs. Octoparse gratterait les données et les raffinerait directement pendant le processus de grattage. Pas besoin de reformater le champ après l'exportation.

Comment affiner les données extraites dans Octoparse ?

Pour accéder à ces fonctionnalités dans Octoparse, le processus peut être divisé en 4 étapes principales :

1. Sélectionnez le champ de données à affiner

cleandataselect.png

2. Cliquez sur l'icône "..." pour personnaliser le champ de données. Sélectionnez ensuite "Nettoyer les données".

step12.png

3. Cliquez sur "Ajouter une étape"

add_step.png

4. Sélectionnez une opération pour reformater vos données

clean.png

 

Tips!

En programmation, "chaîne" fait essentiellement référence à une collection de caractères, tels que des lettres, des chiffres, des symboles et des signes de ponctuation. Par exemple, "" (espace) est une chaîne ; "Octoparse" est une chaîne ; et "Hello 2 *% world !" est également une chaîne. La chaîne ne peut contenir aucun caractère. En d'autres termes, une chaîne qui ne contient pas de caractères est vide. Si vous remplacez un mot par une chaîne vide, en termes simples, cela équivaut à dire que vous avez supprimé le mot.

Vous verrez le mot "chaîne" dans de nombreuses descriptions fonctionnelles des options de reformatage des données d'Octoparse. Si vous y voyez le mot "chaîne", cela signifie que vous pouvez utiliser les options correspondantes pour gérer divers types de caractères dans les données extraites, tels que des lettres, des mots, des phrases, des nombres, des espaces, des symboles et des signes de ponctuation.

 

 

8 options de reformatage des données

1. Remplacer

2. Remplacer par une expression régulière

3. Faire correspondre avec une expression régulière

4. Couper les espaces

5. Ajouter un préfixe

6. Ajouter un suffixe

7. Reformater la date/l'heure extraite

8. Transcodage HTML

 

 

1. Remplacer

Fonction : remplacer la(les) chaîne(s) spécifique(s) dans les données extraites par la(les) nouvelle(s) chaîne(s) souhaitée(s).

mceclip3.png

 

 

 

2. Remplacer par une expression régulière

Fonction : utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) dans les données extraites par la ou les chaînes souhaitées.

Vous pouvez en savoir plus sur l'expression régulière dans W3schools 

 mceclip4.png

 

 

3. Faire correspondre avec une expression régulière

Fonction : utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.

Vous pouvez en savoir plus sur l'expression régulière dans W3schools  .

mceclip5.png

 

 

4. Couper les espaces

Fonction : Supprimer le(s) espace(s) indésirable(s) au début ou/et à la fin des données extraites.

Si vous souhaitez supprimer les espaces au milieu des données, vous pouvez utiliser Remplacer ou Remplacer par une expression régulière.

mceclip7.png

 

 

 

5. Ajouter un préfixe

Fonction : ajouter une ou plusieurs chaînes au début des données extraites.

mceclip8.png

 

 

6. Ajouter un suffixe

Fonction : ajouter une ou plusieurs chaînes à la fin des données extraites.

mceclip9.png

 

 

7. Reformater la date/l'heure extraite

Fonction : Convertir la date/l'heure extraite dans l'un des 14 formats intégrés ou dans votre propre format personnalisé.

mceclip6.png

 

 

 

8. Transcodage HTML

Fonction : Convertir automatiquement certaines balises HTML spécifiques en texte brut. Par exemple, transcoder "&gt" en ">" et "&nbsp" en espace.

 

Outil Regex d'Octoparse

Octoparse fournit également des outils RegEx pour générer automatiquement les expressions régulières dont vous avez besoin. Comprenons rapidement comment utiliser les outil RegEx d'Octoparse pour générer et appliquer des expressions régulières. Par exemple, ici, nous voulons obtenir le numéro d'étoile du HTML externe extrait.

· Cliquez sur "Essayer l'Outil RegEx"

· Saisissez les critères de correspondance : commencer par "<b>", terminer par "</b> from"

· Cliquez sur "générer" pour produire une expression régulière

· Cliquez sur "Faire Correspondre" pour récupérer la(les) chaîne(s) correspondantes

· Cliquez sur "Appliquer"

· Cliquez sur "OK" pour enregistrer les paramètres

t5.gif

Cliquez sur le lien ici pour plus d'informations sur l'utilisation de l'outil Regex.

 

Si vous avez des questions, vous pouvez soumettre une demande ici. Notre équipe d'assistance vous recontactera ultérieurement.

 

Tutorial en español:  Refinar los datos extraídos (reemplazar el contenido, agregar un prefijo, ..)

También puedes leer más tutoriales de web scraping en el sitio web oficial

 

Auteur: Fergus

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter