Le contenu des pages Web est généralement organisé selon un certain modèle. L'un des modèles les plus courants est la liste. Voici quelques exemples d'organisation du contenu sous forme de liste.

L'extraction d'une liste est rapide et facile grâce aux fonctionnalités d'auto-détection d'Octoparse. Grâce à son algorithme avancé, Octoparse est capable d'auto-détecter les éléments d'une liste et de générer automatiquement le flux de travail de la tâche.

Cette page Web particulière est constituée d'éléments partageant la même structure. Chaque élément contient un titre, une date, un mot-clé, un article...

Notre objectif est d'obtenir des données extraites dans Excel comme ceci :

Maintenant, nous allons explorer les différentes façons d'extraire une liste de données avec Octoparse.

1. Extraire une liste avec l'auto-détection

Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL, sélectionnez "Autodétection des données de la page Web". Octoparse va détecter toutes les données de la page et vous pouvez cliquer sur "Créer un flux de travail" pour générer le workflow.

Et après, vous pouvez modifier les données dans l'aperçu de données : gérer les données.

2. Extraire une liste de données manuellement

Si la détection automatique ne parvient pas à détecter la liste, vous pouvez extraire la liste manuellement.

Méthode 1 :

Chargez la page Web dans Octoparse et passez votre curseur sur le premier élément jusqu'à ce que la section entière soit surlignée en bleu.

Continuez à cliquer sur le deuxième élément et vous verrez que tout ce dont vous avez besoin sur une page a été sélectionné.

Choisissez "Texte" comme données extraites et Octoparse créera automatiquement un élément en boucle.

Répétez les étapes pour obtenir d'autres informations

Méthode 2 :

Survolez le premier élément avec votre curseur jusqu'à ce que la section entière soit surlignée en bleu.

Vous remarquerez qu'Octoparse détecte les sous-éléments de la section et les met en évidence en rouge.

Choisissez "Sélectionner tous les sous-éléments".

Choisissez "Choisir les groupes similaires".

Choisissez "Données des éléments". Un élément de boucle sera généré automatiquement pour scrapper la liste des éléments de la page.