Toutes les collections
Utiliser Octoparse
Sélectionner la balise HTML correcte pour les éléments web
Sélectionner la balise HTML correcte pour les éléments web

Dans ce tutoriel, nous allons vous montrer comment sélectionner la balise correcte dans HTML.

Mis à jour il y a plus d’une semaine

Une page web est un document HTML. Une balise HTML est un élément du langage de balisage utilisé pour indiquer le début et la fin d'un élément web dans un document HTML.

Pour sélectionner correctement la balise HTML, voyons les balises que nous rencontrons habituellement dans une tâche. Connaître la signification de ces balises peut nous aider à comprendre laquelle sélectionner dans différents cas.

<a> </a>

définit le lien hypertexte, il peut réaliser l'ouverture d'une nouvelle page par le clic

<p> </p>

définit des paragraphes pour organiser le contenu d'un texte

<div> </div>

définit un bloc ou un bouton pour segmenter différentes zones de la page

<li> </li>

définit un élément de liste

<img> </img>

définit les éléments d'image de la page

<table> </table>

définit l'élément de table HTML

<tr> </tr>

définit une ligne dans un tableau HTML

<td> </td>

définit une cellule de données standard dans un tableau HTML

Lorsque différentes balises sont localisées, Octoparse affiche différentes options dans les Conseils. Au bas des Conseils, vous pouvez voir un lien HTML et la dernière balise est celle qui se trouve maintenant.

Bottom_of_the_tips.png

Si la balise actuelle n'est pas celle que vous voulez, vous pouvez cliquer sur les autres balises que vous voulez dans le tableau.

select_one.png

Si vous ne trouvez pas la balises appropriée sur le chemin actuel, vous pouvez également cliquer sur ouvrir le > pour trouver d'autres balises à l'intérieur.

click_open.png

Voici un bouton Développer la zone de sélection qui vous aidera à étendre la zone sélectionnée. Si vous trouvez qu'il est difficile de sélectionner directement votre zone cible, vous pouvez d'abord en sélectionner une partie, puis continuer à cliquer sur ce bouton Étendre la zone de sélection jusqu'à ce que la zone cible soit sélectionnée.

Expand.png

Prenons quelques éléments en exemple :

1. Extraction d'images

Si vous souhaitez extraire l'URL d'une image, vous devez localiser la balise img, qui contient l'URL de l'image.

Cliquez sur l'image et vous verrez que la balise IMG est la dernière, ce qui signifie que vous avez localisé la balise correcte.

img.png

2. Extraction du lien

Pour obtenir le lien d'un élément, vous devez vous assurer que la localisation de l'élément contient l'URL. Habituellement, la balise A contient l'URL souhaitée.

A_tag.png

Ce n'est que lorsque vous cliquez sur la balise A que l'option Extraire l'URL du lien sélectionné s'affiche.

Extract_link.png
Avez-vous trouvé la réponse à votre question ?