Les informations de pages Web sont de types variés, y compris les textes, les images, les attributs etc. Octoparse est capable de gratter tous ces informations différentes. Dans ce tutoriel, nous vous montrerons comment utiliser Octoparse pour extraire des informations telles que texte, URL, URL d'image, HTML et valeur d'attribut.

1. Extraire le Texte

La plupart des données sont présentées sous forme directement lisible sur les pages Web, comme des articles de presse, des informations de produits ou des blogs.

Pour les extraire, il vous suffit de cliquer sur les données cibles que vous désirez et puis sélectionner Texte comme données extraites.

Lorsque vous cliquez sur l'élément dont vous avez besoin, la zone sélectionnée sera surlignée en vert.

2. Extraire l'URL d'un lien ou d'une image

Une URL est un hyperlien. D'un simple clic sur une URL, vous pouvez ouvrir une nouvelle page Web ou accéder à un nouveau site Web, c'est juste comme ce qui se passe lorsque vous cliquez sur le titre d'un livre sur Amazon.

Outre une page Web, l'URL vous permet aussi d'accéder à la ressource d'un fichier spécifique sur Internet, telle qu'une image ou un document PDF. À URL, vous pouvez télécharger directement le fichier ou l'image correspondant sur Internet.

Voyons maintenant comment sélectionner et extraire l'URL d'un lien ou d'une image avec Octoparse.

Extraire l'URL d'un lien

Vous cliquez sur le lien et puis sélectionner Lien dans le panneau de conseil.

Lorsque vous cliquez sur le lien/l'image dont vous avez besoin, la zone sélectionnée sera surlignée en vert.

A noter :

Lorsque vous sélectionnez un élément avec une URL, la balise sélectionnée en bas du panneau de conseil doit être "a", qui représente un point d’ancrage reliant une page à une autre. Veuillez assurez-vous de sélectionner la bonne zone.

Extraire l'URL d'une image

Cliquez sur l'image cible et puis sélectionner Image URL dans le panneau de conseils pour obtenir l'URL.

FAQ : Puis-je utiliser Octoparse pour télécharger directement une image, et pas son URL ?

Oui ! Vous pouvez utiliser la nouvelle fonctionnalité de téléchargement d'images qui est accessible depuis la version 8.5.4.

3. Extraire HTML interne/externe

Différemment au texte et à l'URL, les données telles que les icônes ne peuvent pas être extraites directement sur pages Web. Si vous voulez extraire les contenus visuels non textuels, comme le classement en étoiles, vous devez extraire d'abord le HTML interne/externe de ces contenus.

Outre les icônes, vous pouvez également extraire les textes, tableaux ou graphiques d'une page Web en extrayant d'abord le code HTML de ces éléments. Après avoir obtenu le code HTML, vous devez utiliser des expressions régulières pour nettoyer les données.

Pour y faire, vous cliquez sur les données cibles que vous désirez, et puis sélectionner InnerHtml ou OuterHtml dans le panneau de conseil.

Conseils

Pour nettoyer les données, il vous faut consulter ces tutoriels :

Leçon 3 : Gére les données

Outil d'expression régulière

4. Extraire la valeur d'attribut

L'attribut est imbriqué dans le code HTML, fournissant des informations supplémentaires. Par exemple, les information de classement par étoiles peut généralement être trouvé dans l'attribut. Il est normalement présenté sous forme de paires nom/valeur, par exemple, nom="valeur". Octoparse permet de les obtenir directement.

Cliquez sur l'élément cible (nous prenons ici les étoiles comme exemple) et sélectionnez OuterHtml.

Allez dans la section de l'aperçu de données, survolez le champ nom et cliquez sur le bouton ... plus, sélectionnez Personnaliser les champs, puis choisissez votre attribut cible dans Sélectionner d'autres attributs.