undefined
Blog > Connaissances > Post

Utilisation d'une expression régulière pour faire correspondre au HTML

Wednesday, June 16, 2021

"Vous saurez à quel point l'expression régulière est puissante une fois que vous l'utiliserez." - Un développeur s'exclame chaleureusement.

 

«Une expression régulière (parfois appelée expression rationnelle) est une séquence de caractères qui définissent un modèle de recherche, principalement pour une utilisation dans la correspondance de modèle avec des chaînes, ou la correspondance de chaînes, c'est-à-dire des opérations de type" rechercher et remplacer ". Le concept est né dans les années 1950, lorsque le mathématicien américain Stephen Kleene a formalisé la description d'un langage régulier, et est devenu couramment utilisé avec les utilitaires de traitement de texte Unix ed (un éditeur de ligne pour le système d'exploitation Unix), un éditeur et grep ( un utilitaire de ligne de commande pour rechercher des ensembles de données en texte brut pour les lignes correspondant à une expression régulière), un filtre (un programme informatique ou un sous-programme pour traiter un flux, en produisant un autre flux). » Ceci est un extrait de Wikipedia utilisé pour définir l'expression régulière.

 

Articles Liés:

Utilisation de RegEx pour extraire les e-mails

Utilisation de RegEx pour extraire des numéros de téléphone

RegEx pour reformater les données extraites

 

      

 

Nous pouvons donc utiliser des expressions régulières pour faire correspondre la balise HTML et extraire les données dans les documents HTML.

Le HTML est virtuellement composé de chaînes, et ce qui rend l'expression régulière si puissante, c'est qu'une expression régulière peut correspondre à différentes chaînes. Certes, l'expression régulière n'est pas le premier choix pour analyser correctement le HTML, car il existe des erreurs courantes telles que des balises de fermeture manquantes, certaines balises incompatibles, etc. lors de l'analyse du HTML avec une expression régulière. En outre, les programmeurs sont plus susceptibles d'utiliser d'autres analyseurs HTML parfaitement bons comme PHPQuery, BeautifulSoup, html5lib-Python, etc. pour maîtriser, vous pouvez utiliser cet outil incroyablement pratique pour identifier les modèles dans les documents HTML. Il est fortement recommandé à tout programmeur ou à toute personne souhaitant extraire des données Web d'apprendre les expressions régulières car cet outil améliore votre efficacité de travail et votre productivité.

 

Regardons quelques exemples:

 

  • Expressions régulières pour faire correspondre les balises HTML:

 

<(.*)>.*?|<(.*) />

<(\S*?)[^>]*>.*?</\1>|<.*?/>

 

  • Expression régulière pour correspondre à toutes les balises TD:

 

<td\s*.*>\s*.*<\/td>

 

  • Expression régulière pour correspondre à <img src = "test.gif"/>:

 

<[a-zA-Z]+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>

 

Nous pouvons faire correspondre à  une variété de balises HTML en utilisant une telle expression régulière et donc extraire facilement des données dans des documents HTML.

                   

(Télécharger Octoparse 8 - Ouvrez le logiciel - Cliquez sur l'icône de la boîte à outils dans le coin inférieur gauche)

 

Octoparse

Octoparse, un outil visuel de collecte de données Web, fournit un outil pour générer des expressions régulières. Il peut facilement générer des expressions régulières simples pour répondre à vos différents besoins en matière d'extrait de contenu dans des documents HTML. En outre, Octoaprse prend entièrement en charge la vérification des expressions régulières personnalisées.

>>Découvrez nos témoignages clients

 

 

Auteur: L'équipe Octoparse

 

Plus de ressources

 

Modèles de Web Scraping à emporter

Localiser l'élément avec XPath

Outil d'Expression Régulière Octoparse (RegEx)

Traiter avec AJAX

Extraction dans le cloud: gratter à grande échelle

Connectez l'API Octoparse étape par étape

 

 

 

 

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter