Comment extraire le texte d’un fichier HTML en quelques secondes

Cet article vous guide dans la structure du langage HTML en vous présentant comment extraire le texte d'un fichier HTML.

Arnaud Martel

2022-07-26T00:00:00+00:00

5 minutes de lecture

Extraire le texte d’un fichier HTML est littéralement la même chose que copier et coller les informations d’une page Web dans un bloc-notes. Cela peut sembler simple, mais imaginez que vous deviez extraire du texte de milliers de fichiers HTML (pages Web), ce ne serait pas aussi amusant. En fait, l’extraction de texte des pages Web a de nombreux usages pratiques, pour n’en citer que quelques-uns :

Télécharger les blogs des pages web
Téléchargez tous les articles d’actualité d’un site Web spécifique
Extraire des informations sur les produits, telles que l’SKU, le modèle et la description, de sites de e-commerce comme Amazon et eBay
Extraire uniquement le texte de la page Web, sans les tableaux, les images ou d’autres formes de données
Nettoyez un fichier HTML désordonné pour n’inclure que le contenu lisible du fichier

Comment le texte est intégré à un fichier HTML

Quelle que soit la raison pour laquelle vous souhaitez extraire le texte d’un fichier HTML, il est utile d’en savoir un peu plus sur la façon dont les textes ou les différents types de données sont intégrés dans un fichier HTML avant de commencer à travailler.

Le principal élément d’un fichier HTML est un tableau d’éléments dans lequel sont intégrés tous les types de données, y compris le texte. Ces éléments sont organisés d’une certaine manière pour constituer la structure d’une page Web.

Voici un exemple tiré d’un des exercices HTML de W3School :

<p>

This paragraph

contains a lot of lines

in the source code,

but the browser 

ignores it.

</p>

Vous pouvez voir ce qui est ci-dessus comme un élément. <p> and </p> comme les balises (la première marque une début et la seconde une fin). Text est souvent enveloppé entre les balises telles que <p>, <span> et <h>, etc.

Comprendre la structure d’un fichier HTML serait utile si vous souhaitez uniquement extraire un élément de données particulier du fichier HTML (ou de la page web). et c’est exactement là que Xpath entre en jeu – un langage d’interrogation permettant de sélectionner des éléments dans un document XML/HTML.

Comment extraire des textes du HTML

Il y a deux choses que vous pouvez essayer pour récupérer le texte des fichiers HTML.

Langage de programmation

Pour ces documents HTML simple, les personnes ayant des connaissances de base en codage choisiraient d’écrire un programme pour supprimer toutes les balises HTML et ne conserver que le texte dans les fichiers HTML, en utilisant une expression régulière ou XPath. Il existe plusieurs langages de programmation largement utilisés, tels que C#, Java, Python, JS, PHP, Go et NodeJs, qui sont disponibles pour les programmeurs informatiques.

Certains de ces langages ont leur propre analyseur syntaxique pour le HTML qui est disponible gratuitement. Vous en saurez plus sur ces analyseurs syntaxiques en cliquant ici.

https://en.wikipedia.org/wiki/Comparison_of_HTML_parsers

Tester et déboguer vos codes peut prendre un certain temps, ce qui est à prévoir si vous avez une quelconque expérience du codage.

Outils d’Extraction de Données sur le Web

Il existe de nombreux outils d’extraction Web performants, tels qu’Octoparse, qui vous permettent de récupérer presque tout ce qui se trouve sur la page Web, y compris le texte, les liens, les images, etc. Vous pouvez convertir tout ce que vous obtenez dans un format de données structuré.

Aucun codage requis, c’est donc une bonne option pour ceux qui n’ont aucune expérience du codage. Dans la plupart des cas, vous n’avez pas besoin d’écrire des expressions régulières ou XPath, mais ce sera toujours un plus si vous voulez répondre à des exigences de données plus sophistiquées. Octoparse, étant donné qu’il est conçu pour les non-codeurs, est doté d’une interface conviviale qui vous permet d’interagir facilement avec les pages Web. Il est facile de gérer et d’exporter les données sans IDE.

Exemple d’extraction HTML

Si vous êtes encore un nouveau venu dans un langage de programmation mais que vous souhaitez télécharger des informations à partir de pages Web avec empressement, un outil de scraping Web peut vous être extrêmement utile. L’algorithme d’auto-détection d’Octoparse facilite le scraping de données pour les non-codeurs. Pour la plupart des pages Web, vous pouvez le faire en trois étapes simples.

Entrez l’URL ciblé
Lancer l’auto-détection
Exécutez la tâche d’extraction de données

Je prends cette page comme exemple : https://techcrunch.com/

Supposons que vous souhaitiez récupérer les blogs de Techcrunch (ou de tout autre site Web similaire), il suffit d’entrer l’URL dans Octoparse et de lancer l’autodétection. Vous obtiendrez un scraper qui vous aidera à obtenir les données structurées comme ci-dessous :

En cliquant sur le bouton “Enregistrer”, vous avez un scraper à votre disposition. Vous pouvez lancer le scraper chaque fois que vous avez besoin des données ou le programmer pour qu’il vous transmette régulièrement des données.

Si vous optez pour des exécutions locales, vous pourrez voir le processus fonctionner en temps réel. Une fois la tâche terminée, vous pouvez télécharger les données dans Excel, CSV ou JSON. Avec l’aide d’Octoparse, l’extraction de données de fichiers HTML peut être aussi simple que cela.

Téléchargez Octoparse dès maintenant et essayez-le vous-même. Suivez ce tutoriel étape par étape pour obtenir les données dont vous avez besoin sur n’importe quel site Web.

Arnaud Martel

Expert en web scraping et en veille concurrentielle, Arnaud accompagne les marques dans la maîtrise et l’exploitation stratégique de la donnée. Il observe les évolutions du marché SaaS et partage des analyses à forte valeur ajoutée.

Obtenir les données en quelques clics

Extraire facilement les données depuis tous les sites sans coder

Télécharger

Articles populaires

Scraper Google Maps gratuitement : les 5 meilleurs outils testés en 2026

Email Scraper & Finder : les 11 meilleurs outils pour trouver des emails professionnels gratuitement

Scraping Pages Jaunes : comment extraire les contacts d’entreprises vers Excel (guide gratuit)

Comment télécharger toutes les images d’un site web : 5 méthodes (avec ou sans code)

Comment extraire des données d’un site web vers Excel

Explorer les sujets

Commencer votre découverte de Octoparse dès maintenant

Télécharger

Lecture conseillée

Comment obtenir le code HTML de n’importe quel site web en masse
Arnaud Martel
Cet article donne une introduction complète de code HTML et les méthodes faciles de les extraire rapidement depuis autant de pages Web possibles.
2024-09-16T16:43:47+00:00 · 5 minutes de lecture
Génération de leads
RegEx : Comment extraire toutes les adresses e-mail depuis un fichier TXT ou des chaînes de caractères ?
Arnaud Martel
Si vous disposez déjà d'un fichier texte contenant des adresses e-mail et des chaînes de caractères, et que vous souhaitez extraire les adresses e-mail. Cet article vous montre comment extraire toutes les adresses e-mail des fichiers TXT ou des chaînes de caractères avec Excel et RegEx.
2023-06-17T00:00:00+00:00 · 6 minutes de lecture
Web Scraping
Comment profiter de la classification de texte pour améliorer votre agrégateur de nouvelles ?
Arnaud Martel
Cet article va concentrer sur comment obtenir les données pour créer un agrégateur, et surtout sur comment profiter de la classification de texte pour optimiser l'agrégateur.
2023-03-27T00:00:00+00:00 · 9 minutes de lecture
Web Scraping
Expression régulière pour extraire les données dans HTML
Manon Colette
Octoparse fournit un outil RegEx pour générer des expressions régulières. Il peut facilement générer des expressions régulières simples pour répondre à vos différents besoins en matière d'extrait de contenu dans des documents HTML.
2022-06-08T00:00:00+00:00 · 5 minutes de lecture