undefined

Extraire une liste

Thursday, June 10, 2021 9:44 AM

Le contenu des pages Web est généralement affiché selon certains types de modèles, dont le modèle le plus utilisé est la liste. Voici quelques exemples de cas dans lesquels le contenu est présenté sous forme de liste.

 
234234.png
 
Avec la fonctionnalité "Auto-détection" d'Octoparse, il est hyper rapide et facile de gratter une liste. Basé sur son algorithme avancé, Octoparse est capable de détecter automatiquement les éléments d'une liste et de générer, automatiquement bien sûr, un workflow. Avec l'Auto-détection d'Octoparse, la liste de grattage ne pourrait pas être plus facile. Voici un exemple pour vous montrer comment cela se passe.

L'URL d'exemple: https://www.octoparse.com/blog

Les éléments sur cette page Web partagent une même structure. Chaque élément contient le titre, l'heure, le mot-clé, l'article...

1.png

 

Notre objectif est d'extraire ces données dans Excel comme ceci :

2.png

Maintenant, explorons ensemble les différentes façons pour y parvenir dans Octoparse.

1. Extraire une liste avec l'auto-détection

2. Extraire une liste manuellement

 

Extraire une liste avec l'auto-détection

Après avoir créé une nouvelle tâche avec l'URL d'exemple, sélectionnez "Auto-détecter les données de la page Web". Octoparse va détecter toutes les données sur la page et cliquez ensuite sur "Créer un workflow" pour générer le workflow.

3.gif

 

 

 

Extraire une liste manuellement

Si éventuellement, l'auto-détection ne parvient pas à détecter la liste ou si vous voulez créer une tâche sans l'auto-détection, vous pouvez toujours extraire la liste manuellement.

1) Chargez la page Web dans Octoparse, passez votre curseur sur l'un des éléments de la liste jusqu'à ce que toute la section soit surlignée en bleu, puis cliquez dessus.

a75b15da17d88f2bf4802b33ed1a7e4.png

 

 

Tips!

Veuillez vous assurer que les sous-éléments que vous souhaitez extraire sont tous inclus dans la section surlignée.

d7e51613ab476d36110ce277bad7f8f.png

ccb67dfb66baea352dccde1547ecb69.png

c152ca3d7255410bf4ee06320ca387a.png

 

 

2) Après avoir sélectionné l'élément, tous les sous-éléments seront surlignés en rouge, ce qui signifie qu'Octoparse les a identifiés avec succès. Cliquez sur "Sélectionner les sous-éléments".

598e0f8cfcd4a23856ae81d7c8f5911.png

 

 3) Cliquez sur "Tout sélectionner" pour sélectionner tous les éléments similaires détectés.

856ebe0d26905c7f5856b751791b903.png

 

4) Sélectionnez ensuite "Extraire les données". Un élément de boucle sera généré automatiquement pour gratter les éléments de liste sur la page.

b0e08bb03200431fc9aac4b56893e97.png

 

 5) Si vous voulez modifier les champs de données extraits, vous pouvez cliquer sur les paramètres de l'action "Extraire les données".

71444437b765090a013676f6d801386.png

01bd72f9639a2b3d203416b60a4000d.png

 

Si vous avez besoin d'aide pour la configuration des tâches ou la collecte de données, envoyez un ticket à notre équipe d'assistance! Nous vous répondrons dans 24 heures.

 

Artículo en español:  Extraer datos de lista

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Kara

Editeur: Isabel

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter