undefined

Extraire les éléments texte/URL/image/HTML/attribut

Monday, May 31, 2021 11:41 AM

 

Les types d'informations de pages Web sont variés, y compris les textes, les images, les attributs etc. Octoparse est capable de gratter tous ces informations différentes. Dans ce tutoriel, nous vous montrerons comment utiliser Octoparse pour extraire des informations telles que texte, URL, URL d'image, HTML et valeur d'attribut.

1) Extraire Texte

2) Extraire l'URL d'un lien ou d'une image

3) Extraire HTML interne/externe

4) Extraire valeur d'attribut

 

 

1) Extraire Texte

La plupart des données sont présentées sous forme directement lisible sur les pages Web, comme des articles de presse, des informations de produits ou des blogs.

Voyons ensuite comment sélectionner et extraire les données texte avec Octoparse.

1. Cliquez sur les données cibles que vous désirez

Lorsque vous cliquez sur l'élément dont vous avez besoin, la zone sélectionnée sera surlignée en vert.

2. Extrayez texte

Cliquez sur "Extraire texte d'élément sélectionné" pour récupérer le texte.

1.gif

 

 

2) Extraire l'URL d'un lien ou d'une image

Une URL est un hyperlien. D'un simple clic sur une URL, vous pouvez ouvrir une nouvelle page Web ou accéder à un nouveau site Web, c'est juste comme ce qui se passe lorsque vous cliquez sur le titre d'un livre sur Amazon.

Outre une page Web, l'URL vous permet aussi d'accéder à la ressource d'un fichier spécifique sur Internet, telle qu'une image ou un document PDF. ÀURL, vous pouvez télécharger directement le fichier ou l'image correspondant sur Internet.

Voyons maintenant comment sélectionner et extraire l'URL d'un lien ou d'une image avec Octoparse.

 

Extraire l'URL d'un lien

1. Cliquez sur le lien vous désirez

Lorsque vous cliquez sur le lien/l'image dont vous avez besoin, la zone sélectionnée sera surlignée en vert.

Tips!

Lorsque vous sélectionnez un élément avec une URL, l'étiquette sélectionnée en bas du panneau "Tips" doit être "A", qui représente un point d’ancrage reliant une page à une autre. Veuillez assurez-vous de sélectionner la bonne zone.

2020-08-02_14-03-18.png

 

2. Extrayez l'URL

Cliquez sur "Extraire l'URL de l'élément sélectionné" dans le panneau "Tips" pour obtenir l'URL

 scrape_URL.gif

 

Extraire l'URL d'image

1. Cliquez sur l'image que vous voulez

Tips!

Lorsque vous sélectionnez une image , l'étiquette sélectionnée en bas du panneau "Tips" doit être "IMG".

2020-08-02_14-02-14.png

2. Extrayez l'URL d'image

Cliquez sur "Extraire l'URL de l'image sélectionnée" pour obtenir l'URL

scrape_image.gif
 

Tips!

Puis-je utiliser Octoparse pour obtenir directement une image, mais pas son URL, à partir de la page Web ?

Malheureusement, ce n'est pas possible d'utiliser Octoparse pour extraire directement l'image elle-même. Si vous souhaitez télécharger des images, vous pouvez d'abord récupérer les URLs d'images avec Octoparse, puis télécharger en masse les images avec l'outil "télécharger à partir d'une URL" .

 

 

3) Extraire HTML interne/externe

Différemment au texte et à l'URL, les données telles que les icônes ne peuvent pas être extraites directement sur pages Web. Si vous voulez extraire les contenus visuels non textuels, comme le classement en étoiles, vous devez extraire d'abord le HTML interne/externe de ces contenus.

Outre les icônes, vous pouvez également extraire les textes, tableaux ou graphiques d'une page Web en extrayant d'abord le code HTML de ces éléments. Après avoir obtenu le code HTML, vous devez utiliser des expressions régulières pour nettoyer les données.

Voyons d'abord comment sélectionner et extraire HTML interne/externe avec Octoparse.

1. Cliquez sur les données cibles que vous désirez

Lorsque vous cliquez sur l'élément dont vous avez besoin, la zone sélectionnée sera surlignée en vert.

2. Extrayez HTML interne/externe

Cliquez sur "Extraire HTML interne/externe de l'élément sélectionné" dans le panneau "Tips".

 t7.gif

Tips!

Octoparse vous fournit des fonctionnalités et des outils pratiques pour vous aider à appliquer des expressions régulières.

Articles liés:

Extraire le texte d'HTML - Utilisation de l'outil RegEx

Reformater les données extraites 

 

 

4) Extraire valeur d'attribut

L'attribut est imbriqué dans le code HTML, fournissant des informations supplémentaires. Par exemple, les information de classement par étoiles peut généralement être trouvé dans l'attribut. Il est normalement présenté sous forme de paires nom/valeur comme nom="valeur". Pour ce genre d'attribut, Octoparse peut  vous aider à les gratterdirectement.

1. Sélectionnez l'élément (ici, nous prenons le nombre d'étoiles comme exemple)

2. Extrayez le texte ou HTML de l'élément

scrape_attribute.gif

3. Accédez aux paramètres de "Extraire les données" et cliquez sur mceclip0.png pour trouver l'option "Personnaliser le champ de données"

2020-08-02_14-34-44.png

 

4. Sélectionnez "Extraire l'attribut" et choisissez l'attribut cible dans la liste déroulante

2020-08-02_14-46-33.png

 

Tips!

1. Vous pouvez aussi extraire d'autres types d'informations de l'élément par "Personnaliser le champ de données". Par exemple, vous avez choisi d'extraire le texte, mais changé d'idée plus tard et voudrez gratter son code HTML. Dans ce cas-là, vous pouvez simplement "Personnaliser le champ de données" et sélectionner "Extraire le HTML externe".

2020-08-02_14-50-12.png

 

2.Toutes sortes de données sont stockées au format texte une fois exportées vers un fichier.

 

Tutorial en español:  Extraer texto del elemento/URL/imagen/HTML/atributo

También puedes leer más tutoriales de web scraping en sitio web oficial

 

Auteur: Yanni

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter