undefined

Extraire les données

Tuesday, June 22, 2021 3:12 PM

Qu'est-ce que "Extraire les données" ?

"Extraire les données" est une étape indispensable lorsque vous configurez votre tâche pour obtenir les données. Tous les champs de données dont vous avez besoin peuvent être trouvés dans cette étape. Dans cette étape, vous pouvez nettoyer les données, modifier XPath, changer la séquence de données, copier, supprimer des champs de données, etc.

Sans cette étape, votre tâche ne peut même pas être exécutée.

mceclip0.png

Comment ajouter une action "Extraire les données" dans le workflow ?

Il y a deux manières pour générer une action "Extraire les données".

1. Cliquer sur les éléments de la page Web pour en générer une automatiquement (le plus courant)

Pour extraire des données de la page, cliquew d'abord sur l'élément. Ensuite, cliquez sur l'option "Extraire ......" dans le panneau Tips et l'action "Extraire les données" s'affichera dans le flux de travail.

Les options pourraient être:

"Extraire le texte/l'URL de l'élément sélectionné"

"Extraire le HTML interne/externe de l'élément sélectionné"

"Extraire les données"

"Extraire les données dans la boucle"

......

mceclip3.png

2. Ajouter à partir du workflow

Lorsque vous déplacez votre souris dans le flux de travail, vous pouvez voir une icône mceclip1.png apparaître. Cliquez sur l'icône pour afficher les options déroulantes et choisissez "Extraire les données" pour ajouter cette étape dans le flux de travail.

mceclip2.png

Paramètres d'Action

Pour modifier plus de paramètres liés aux champs de données, vous pouvez double-cliquer sur le nom de "Extraire les données" ou cliquer sur l'icône d'engrenage comme ceci :

mceclip4.png

Après avoir ouvert les "Paramètres d'action", vous pouvez constater qu'il y a 4 fonctionnalités principales.

mceclip5.png

1. Extraire les données dans la boucle

Si vous voulez extraire des données directement d'une page de liste au lieu de cliquer continuellement sur les pages de détail de chaque article, vous pouvez cocher cette action.

Voici un exemple de liste de page de produits.

mceclip6.png

Pour savoir plus sur l'extraction de données à partir d'une liste de page de résultats, consultez ce tutoriel : Extraire une liste.

 

2. Définir les champs de données

Vous pouvez y trouver des champs de données et effectuer des actions telles que supprimer, déplacer ou nettoyer les champs de données et ajouter des champs tels que l'heure d'extraction, l'URL de la page actuelle, etc.

Vous pouvez aussi y réviser XPath d'un certain champ de données si vous trouvez que la donnée n'est pas correctement placée dans le fichier sorti.

 

mceclip7.png

Pour mieux comprendre ce que représentent les icônes dans Octoparse, voyez les détails suivants:

mceclip9.pngSupprimer des champ(s) de données par lot si vous voulez supprimer plusieurs champs à la fois

mceclip10.pngImporter des champ(s) de données à partir d'un fichier de données [Configuration d'extraction d'Octoparse (*.oec)]

mceclip11.pngExporter des champ(s) de données dans un fichier de données [Configuration d'extraction d'Octoparse (*.oec)]

mceclip12.png: Ajouter des champ(s) de données à partir d'une liste prédéfinie etc (Ajouter des champs de données prédéfinis)

mceclip13.pngPersonnaliser XPath (Pour savoir plus sur XPath, veuillez consulter ce tutoriel Qu'est-ce que XPath et comment l'utiliser dans Octoparse)

mceclip14.pngPlus d'actions                        

 mceclip15.png

     - Personnaliser le champ: pour sélectionner les informations (texte, HTML, valeur d'attribut ou URL) que vous voulez extraire de l'élément de page. Pour en savoir plus, consultez ce tutoriel: Extraire les éléments text/URL/image/HTML/attribut.

     - Nettoyer les données: pour nettoyer la sortie de données comme vous le souhaitez (par exemple, ajouter un préfixe, un suffixe, transformer l'heure, remplacer les champs, etc.). Pour en savoir plus, consultez ce guide : Re-formater les données extraites.

     - Combiner les données: pour combiner le même champ de données de différents éléments de boucle. Pour en savoir plus, consultez ce guide : Combiner les données extraites.

     - Lorsque les données ne peuvent pas etre trouvées : lorsqu'il y a certains champs de données vides dans le fichier sorti, vous pouvez choisir de les laisser vides, ou d'utiliser une valeur fixe.

     - Déplacer le champ: pour déplacer un certain champ de données vers le haut ou le bas

     - Copier: pour dupliquer un certain champ de données

      

3. Déclencheur

Si vous voulez récupérer des données en fonction de certaines conditions, utilisez le Déclencheur

Par exemple, si une ligne de données n'est pas vide dans Fichier1, vous souhaitez la vider. Découvrez plus de détails sur Déclencheur.

mceclip16.png

mceclip17.png

 

4. Avant l'exécution de l'action (ajouter un temps d'attente)

Cette action vous permettra d'ajouter un temps d'attente avant d'exécuter une action.

De différents sites Web peuvent avoir des paramètres de délai d'attente différents pour charger les données, vous devez donc, dans certains cas, rallonger un peu le temps d'attente ou ajouter certaines conditions d'attente pour donner plus de temps au chargement de la page Web.

Vous pouvez consulter ce guide pour connaître de différents cas d'utilisation : Attendre avant l'action.

mceclip19.png

 

Si vous rencontrez des problèmes lors de la configuration de votre tâche, n'hésitez pas à envoyer un ticket à notre équipe d'assistance.

 

Artículo en español:  Extraer datos

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Vanny

Editeur: Yina 

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter