Utilisation d'une expression régulière pour faire correspondre au HTML
Monday, September 13, 2021"Vous saurez à quel point l'expression régulière est puissante une fois que vous l'utiliserez." - Un développeur s'exclame chaleureusement.
«Une expression régulière (parfois appelée expression rationnelle) est une séquence de caractères qui définissent un modèle de recherche, principalement pour une utilisation dans la correspondance de modèle avec des chaînes, ou la correspondance de chaînes, c'est-à-dire des opérations de type" rechercher et remplacer ". Le concept est né dans les années 1950, lorsque le mathématicien américain Stephen Kleene a formalisé la description d'un langage régulier, et est devenu couramment utilisé avec les utilitaires de traitement de texte Unix ed (un éditeur de ligne pour le système d'exploitation Unix), un éditeur et grep ( un utilitaire de ligne de commande pour rechercher des ensembles de données en texte brut pour les lignes correspondant à une expression régulière), un filtre (un programme informatique ou un sous-programme pour traiter un flux, en produisant un autre flux). » Ceci est un extrait de Wikipedia utilisé pour définir l'expression régulière.
Articles Liés:
Utilisation de RegEx pour extraire les e-mails
Utilisation de RegEx pour extraire des numéros de téléphone
RegEx pour reformater les données extraites
Nous pouvons donc utiliser des expressions régulières pour faire correspondre la balise HTML et extraire les données dans les documents HTML.
Le HTML est virtuellement composé de chaînes, et ce qui rend l'expression régulière si puissante, c'est qu'une expression régulière peut correspondre à différentes chaînes. Certes, l'expression régulière n'est pas le premier choix pour analyser correctement le HTML, car il existe des erreurs courantes telles que des balises de fermeture manquantes, certaines balises incompatibles, etc. lors de l'analyse du HTML avec une expression régulière. En outre, les programmeurs sont plus susceptibles d'utiliser d'autres analyseurs HTML parfaitement bons comme PHPQuery, BeautifulSoup, html5lib-Python, etc. pour maîtriser, vous pouvez utiliser cet outil incroyablement pratique pour identifier les modèles dans les documents HTML. Il est fortement recommandé à tout programmeur ou à toute personne souhaitant extraire des données Web d'apprendre les expressions régulières car cet outil améliore votre efficacité de travail et votre productivité.
Regardons quelques exemples:
-
Expressions régulières pour faire correspondre les balises HTML:
<(.*)>.*?|<(.*) />
<(\S*?)[^>]*>.*?</\1>|<.*?/>
-
Expression régulière pour correspondre à toutes les balises TD:
<td\s*.*>\s*.*<\/td>
-
Expression régulière pour correspondre à <img src = "test.gif"/>:
<[a-zA-Z]+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>
Nous pouvons faire correspondre à une variété de balises HTML en utilisant une telle expression régulière et donc extraire facilement des données dans des documents HTML.
(Télécharger Octoparse 8 - Ouvrez le logiciel - Cliquez sur l'icône de la boîte à outils dans le coin inférieur gauche)
Octoparse
Octoparse, un outil visuel de collecte de données Web, fournit un outil pour générer des expressions régulières. Il peut facilement générer des expressions régulières simples pour répondre à vos différents besoins en matière d'extrait de contenu dans des documents HTML. En outre, Octoaprse prend entièrement en charge la vérification des expressions régulières personnalisées.
>>Découvrez nos témoignages clients
Auteur: L'équipe Octoparse
Localiser l'élément avec XPath
Outil d'Expression Régulière Octoparse (RegEx)
Extraction dans le cloud: gratter à grande échelle
Connectez l'API Octoparse étape par étape
Posts les plus populaires
- 1 . Un guide complet pour scraper les offres d'emploi sur Indeed
- 2 . Price Scraping : Outils gratuits pour scraper les données sur les prix
- 3 . Top 30 des logiciels de Web scraping gratuits en 2021
- 4 . Outils de Web Crawler gratuits en ligne
- 5 . Telecharger en masse des images a partir des sites Web / Liens
Posts par sujet
Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour des autres
questions sur le web scraping !