undefined

Extraire une liste 8.5

Monday, February 14, 2022 4:58 PM

Le contenu des pages Web est généralement organisé selon certains types de modèles. L'un des modèles les plus courants est la liste. Voici quelques exemples où le contenu est présenté sous forme de liste. 

 

 

L'extraction d'une liste est rapide et facile grâce à la fonction auto-détection d'Octoparse. Grâce à son algorithme avancé, Octoparse est capable d'auto-détecter les éléments d'une liste et de générer automatiquement le workflow.

Cette page Web particulière est constituée d'éléments ayant la même structure. Chaque élément contient un titre, une date, un mot clé, un article...

 

 

Notre objectif est d'obtenir des données extraites dans Excel comme ceci :

 

 

Maintenant, explorons les différentes manières d'y parvenir dans Octoparse.

 

1. Extraire la liste avec l'autodétection

2. Extraire la liste manuellement

 

 

Vous pouvez utiliser ce lien pour suivre le processus : https://www.octoparse.com/blog

 

 

1. Extraire la liste avec l'autodétection

 

Une fois que vous avez créé une nouvelle tâche en utilisant l'exemple d'URL, sélectionnez "Auto-detect web page data". Octoparse va maintenant détecter toutes les données de la page et vous pouvez cliquer sur "Create workflow " pour générer le workflow.

 

 

 

2. Extraire la liste manuellement

 

Si, l'autodétection ne parvient pas à détecter la liste ou si vous construisez une tâche sans autodétection, vous pouvez toujours extraire la liste manuellement.

 

1) Méthode 1 :

  1. 1. Chargez la page Web dans Octoparse et passez votre curseur sur le premier élément jusqu'à ce que la section entière soit surlignée en bleu.
  2. 2. Continuez à cliquer sur le deuxième élément et vous verrez que tout ce dont vous avez besoin sur une page a été sélectionné.
  3. 3. Choisissez " Extract text of the selected elements " et Octoparse créera automatiquement un Loop Item.

 

 

Vous remarquerez que le premier élément est maintenant surligné en rouge. Vous pouvez sélectionner les informations telles que le titre, la date et le mot-clé dans la zone sélectionnée.

  • 4. Sélectionnez le titre et choisissez " Extract the text of the element ".
  • 5. Répétez les étapes pour obtenir d'autres informations
  • 6. Double-cliquez sur le nom du champ pour le renommer si nécessaire.

 

 

Tips!

Veuillez vous assurer que tous les sous-éléments que vous souhaitez extraire sont tous inclus dans cette section en surbrillance.

 

 

2) Méthode 2 :

 

  • 1. Passez votre curseur sur le premier élément jusqu'à ce que la section entière soit surlignée en bleu.

Vous remarquerez qu'Octoparse détecte les sous-éléments de la section et les met en évidence en rouge.

  • 2. Choisissez " Select sub-elements " (Sélectionner les sous-éléments)
  • 3. Choisissez " Select all ".
  • 4. Choisissez " Extract data ". Un élément de boucle sera généré automatiquement pour scrapper la liste de ces éléments sur la page.

 

 

Tips!

Si vous souhaitez modifier ou supprimer les champs de données extraits, vous pouvez cliquer sur "Extract Data" et modifier les champs dans le tableau "Data Preview".

 

 

Si vous avez besoin d'aide pour la configuration des tâches ou la collecte des données, soumettez un message à notre équipe de support ! Nous vous répondrons dans les 24 heures.

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter