Toutes les collections
Utiliser Octoparse
Affiner les données extraites (remplacer le contenu, ajouter un préfixe, etc)
Affiner les données extraites (remplacer le contenu, ajouter un préfixe, etc)

Ce tutoriel va vous présenter les cas de l'utilisation de fonction "nettoyer les champs".

Mis à jour il y a plus d’une semaine

Au cours de votre projet de scraping Web, vous aurez peut-être besoin de nettoyer les champs de données extraits.

Quand dois-je affiner les données extraites ?

Lorsque vous voulez appliquer un format de données spécifique sur un certain champ, vous pouvez utiliser notre fonction "Nettoyer les données" pour affiner les champs. Octoparse gratterait les données et les raffinerait directement pendant le processus de grattage. Pas besoin de reformater le champ après l'exportation.

Comment affiner les données extraites dans Octoparse ?

Pour accéder à ces fonctionnalités dans Octoparse, le processus peut être divisé en 4 étapes principales :

  • Sélectionnez le champ de données à affiner

  • Cliquez sur l'icône "..." pour personnaliser le champ de données. Sélectionnez ensuite "Nettoyer les données".

  • Cliquez sur "Ajouter une étape"

  • Sélectionnez une opération pour reformater vos données

Tips!

En programmation, "chaîne" fait essentiellement référence à une collection de caractères, tels que des lettres, des chiffres, des symboles et des signes de ponctuation.

Par exemple, "" (espace) est une chaîne ; "Octoparse" est une chaîne ; et "Hello 2 *% world !" est également une chaîne. La chaîne ne peut contenir aucun caractère. En d'autres termes, une chaîne qui ne contient pas de caractères est vide. Si vous remplacez un mot par une chaîne vide, en termes simples, cela équivaut à dire que vous avez supprimé le mot.

Vous verrez le mot "chaîne" dans de nombreuses descriptions fonctionnelles des options de reformatage des données d'Octoparse. Si vous y voyez le mot "chaîne", cela signifie que vous pouvez utiliser les options correspondantes pour gérer divers types de caractères dans les données extraites, tels que des lettres, des mots, des phrases, des nombres, des espaces, des symboles et des signes de ponctuation.


8 options de reformatage des données

1. Remplacer

Fonction : remplacer la(les) chaîne(s) spécifique(s) dans les données extraites par la(les) nouvelle(s) chaîne(s) souhaitée(s).

2. Remplacer par une expression régulière

Fonction : utiliser une expression régulière spécifique pour remplacer la(les) chaîne(s) correspondante(s) dans les données extraites par la ou les chaînes souhaitées.

3. Faire correspondre avec une expression régulière

Fonction : utiliser une expression régulière spécifique pour récupérer la(les) chaîne(s) correspondante(s) à partir des données extraites.

4. Couper les espaces

Fonction : Supprimer le(s) espace(s) indésirable(s) au début ou/et à la fin des données extraites.

Si vous souhaitez supprimer les espaces au milieu des données, vous pouvez utiliser Remplacer ou Remplacer par une expression régulière.

5. Ajouter un préfixe

Fonction : ajouter une ou plusieurs chaînes au début des données extraites.

6. Ajouter un suffixe

Fonction : ajouter une ou plusieurs chaînes à la fin des données extraites.

7. Reformater la date/l'heure extraite

Fonction : Convertir la date/l'heure extraite dans l'un des 14 formats intégrés ou dans votre propre format personnalisé.

8. Transcodage HTML

Fonction : Convertir automatiquement certaines balises HTML spécifiques en texte brut. Par exemple, transcoder "&gt" en ">" et "&nbsp" en espace.

Outil Regex d'Octoparse

Octoparse fournit également des outils RegEx pour générer automatiquement les expressions régulières dont vous avez besoin. Comprenons rapidement comment utiliser les outil RegEx d'Octoparse pour générer et appliquer des expressions régulières. Par exemple, ici, nous voulons obtenir le numéro d'étoile du HTML externe extrait.

  • Cliquez sur "Essayer l'Outil RegEx"

  • Saisissez les critères de correspondance : commencer par "<b>", terminer par "</b> from"

  • Cliquez sur "générer" pour produire une expression régulière

  • Cliquez sur "Faire Correspondre" pour récupérer la(les) chaîne(s) correspondantes

  • Cliquez sur "Appliquer"

  • Cliquez sur "OK" pour enregistrer les paramètres

Avez-vous trouvé la réponse à votre question ?