undefined

Extraire les données de tableaux

Wednesday, June 30, 2021 10:06 AM

Les données tabulaires sont très courantes dans les sites Web concernant la finance, le sport, etc. Ce tutoriel vous expliquera comment récupérer des données tabulaires.

Si vous savez déjà comment saisir une liste de données, les données de la table sont plus ou moins similaires (Extraire une liste). Vous pouvez prendre chaque ligne du tableau comme un élément des données de la liste. Ensuite, chaque cellule du tableau est équivaut à un élément enfant.

Comment collecter des données de tableaux avec Octoparse ? Continuez à apprendre avec ce tutoriel !

URL d'exemplehttps://money.cnn.com/data/hotstocks/index.html

mceclip0.png

1. Utiliser l'Auto-détection pour configurer un workflow

2. Configurer un workflow manuellement

 

 

1. Utiliser l'Auto-détection pour configurer un workflow

Octoparse prend en charge l'auto-détection des tables et le grattage de toutes les colonnes. Avec cette fonctionnalité, vous n'avez qu'à

1) Entrer URL de la page Web et sélectionner "Détecter automatiquement les données de la page Web"

1.gif

2) Vérifier si toutes les cellules du tableau ont été capturées et cliquez ensuite sur "Créer un workflow"

2020-07-28_14-45-58.png

Tips!

Consultez Leçon 1: Extraire les données avec le tout nouvel algorithme "Auto-détection" pour obtenir plus de détails sur l'auto-détection.

 

2. Configurer un workflow manuellement

Comment faire si l'auto-détection ne fonctionne pas ou si elle n'a pas collecté toutes les données désirées de la table ? Dans ce cas-là, vous devez configurer la tâche manuellement. Voici les étapes :

1) Sélectionnez la première cellule sur la première ligne du tableau, puis cliquez sur l'icône "Agrandir la zone de sélection" jusqu'à ce qu'elle sélectionne la première ligne entièrement.

(Si l'auto-détection se démarre automatiquement, vous pouvez cliquer sur "Désactiver l'auto-détection" ou "Annuler l'auto-détection" pour l'arrêter)

mceclip3.png

le panneau Tips indiquera "Un ou plusieurs sous-éléments ont été trouvés" pour vous demander si vous souhaitez localiser ces sous-éléments. (Les "sous-éléments" sont les champs de données spécifiques qu'Octoparse a détecté sur chaque ligne de données. )

mceclip4.png

2. Choisissez "Sélectionner tous les sous-éléments" dans le panneau Tips. Tous les sous-éléments de la première ligne seront sélectionnés, puis les autres éléments similaires seront aussi surlignés en rouge.

mceclip5.png

 

3. Choisissez "Sélectionner tout" dans le panneau Tips. Tous les sous-éléments du tableau seront sélectionnés et surlignés en vert.

 mceclip6.png

4. Choisissez "Extraire les données" dans le panneau Tips. Octoparse va extraire ensuite les données de tous les champs de données de la table.

 mceclip7.png

 

5. Modifier les champs de données en fonctions de besoin (facultatif)

Maintenant, vous avez tous les champs de données sélectionnés dans la tâche. Vous pouvez les renommer, supprimer dans la section "Aperçu des données".

  • Cliquer sur mceclip9.png pour renommer le champs de données
  • Cliquer mceclip10.png  pour plus d'actions: supprimer, copier, nettoyer les données, etc.

mceclip8.png

 

Si vous avez des problèmes pour extraire les données d'un tableau, vous pouvez envoyer un ticket à notre équipe d'assistance.

 

Artículo en español:  Extraer datos de tabla

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Vanny

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter