Extraire des données

Ce tutoriel va vous introduire comment extraire les données

Mis à jour il y a plus d’une semaine

Qu'est-ce que "Extraire les données" ?

"Extraire les données" est une étape indispensable lorsque vous configurez votre tâche pour obtenir les données. Tous les champs de données dont vous avez besoin peuvent être trouvés dans cette étape. Dans cette étape, vous pouvez nettoyer les données, modifier XPath, changer la séquence de données, copier, supprimer des champs de données, etc.

Sans cette étape, votre tâche ne peut même pas être exécutée.

Comment ajouter une action "Extraire les données" dans le workflow ?

Il y a deux manières pour générer une action "Extraire les données".

1. Cliquer sur les éléments de la page Web pour en générer une automatiquement (le plus courant)

Pour extraire des données de la page, cliquew d'abord sur l'élément. Ensuite, cliquez sur l'option "Extraire ......" dans le panneau Tips et l'action "Extraire les données" s'affichera dans le flux de travail.

Les options pourraient être:

  • "Extraire le texte/l'URL de l'élément sélectionné"

  • "Extraire le HTML interne/externe de l'élément sélectionné"

  • "Extraire les données"

  • "Extraire les données dans la boucle"

2. Ajouter à partir du workflow

Lorsque vous déplacez votre souris dans le flux de travail, vous pouvez voir une icône

apparaître. Cliquez sur l'icône pour afficher les options déroulantes et choisissez "Extraire les données" pour ajouter cette étape dans le flux de travail.

Paramètres d'Action

Pour modifier plus de paramètres liés aux champs de données, vous pouvez double-cliquer sur le nom de "Extraire les données" ou cliquer sur l'icône d'engrenage comme ceci :

Après avoir ouvert les "Paramètres d'action", vous pouvez constater qu'il y a 4 fonctionnalités principales.

1. Extraire les données dans la boucle

Si vous voulez extraire des données directement d'une page de liste au lieu de cliquer continuellement sur les pages de détail de chaque article, vous pouvez cocher cette action.

Voici un exemple de liste de page de produits.

2. Définir les champs de données

Vous pouvez y trouver des champs de données et effectuer des actions telles que supprimer, déplacer ou nettoyer les champs de données et ajouter des champs tels que l'heure d'extraction, l'URL de la page actuelle, etc.

Vous pouvez aussi y réviser XPath d'un certain champ de données si vous trouvez que la donnée n'est pas correctement placée dans le fichier sorti.

Pour mieux comprendre ce que représentent les icônes dans Octoparse, voyez les détails suivants:

  • Personnaliser le champ: pour sélectionner les informations (texte, HTML, valeur d'attribut ou URL) que vous voulez extraire de l'élément de page.

  • Nettoyer les données: pour nettoyer la sortie de données comme vous le souhaitez (par exemple, ajouter un préfixe, un suffixe, transformer l'heure, remplacer les champs, etc.).

  • Combiner les données: pour combiner le même champ de données de différents éléments de boucle.

  • Lorsque les données ne peuvent pas etre trouvées : lorsqu'il y a certains champs de données vides dans le fichier sorti, vous pouvez choisir de les laisser vides, ou d'utiliser une valeur fixe.

  • Déplacer le champ: pour déplacer un certain champ de données vers le haut ou le bas

  • Copier: pour dupliquer un certain champ de données

4. Avant l'exécution de l'action (ajouter un temps d'attente)

Cette action vous permettra d'ajouter un temps d'attente avant d'exécuter une action.

De différents sites Web peuvent avoir des paramètres de délai d'attente différents pour charger les données, vous devez donc, dans certains cas, rallonger un peu le temps d'attente ou ajouter certaines conditions d'attente pour donner plus de temps au chargement de la page Web.

Vous pouvez consulter ce guide pour connaître de différents cas d'utilisation :

Avez-vous trouvé la réponse à votre question ?