undefined
Blog > Web Scraping > Post

RegEx : comment extraire tous les numéros de téléphone des chaînes de caractères?

Tuesday, August 31, 2021

Parfois, un outil Regex peut vous aider à vous libérer de matériels d'apprentissage perplexes et rendre l'écriture Regex super facile. Voici un guide rapide pour les débutants afin d'extraire les numéros de téléphone des chaînes de caractères.

 

Sommaire

Qu'est-ce que RegEx

Comment écrire une expression régulière

Exemples d'extraction de téléphones à l'aide de Regex

 

Qu'est-ce que RegEx

RedEx est l'abréviation de Regular Expression, un objet qui décrit le modèle d'une chaîne de caractères. Cette expression étant compréhensible par l'ordinateur, nous sommes en mesure de localiser les données qui correspondent à ce modèle et de récupérer les informations souhaitées.

 

"Une expression régulière (abrégée en regex ou regexp ; également appelée expression rationnelle) est une séquence de caractères qui spécifie un modèle de recherche."

 

——Cité par Wikipedia.com

Comment une expression régulière peut-elle nous aider à extraire les numéros de téléphone d'un long texte?

Par exemple, vous cherchez un moyen d'extraire en une seule fois tous les numéros de téléphone d'un texte. Ce texte contient de nombreuses séries de numéros de téléphone éparpillées ici et là de manière aléatoire. Vous devez connaître la formule "CONTROL + F", qui est intégrée à la plupart des applications pour aider les utilisateurs à trouver et à mettre en évidence une certaine chaîne de données. 

 

Si vous êtes en mesure d'écrire un code d'expression régulière qui élabore le même modèle de ces numéros de téléphone, vous pouvez entrer ce code dans un éditeur de texte avec une capacité d'expression régulière intégrée par le biais de la fonction "rechercher" et les données que vous recherchez seront bien localisées.

 

Comment écrire une expression régulière

Si vous souhaitez extraire des numéros de téléphone à l'aide d'expressions régulières mais ne savez pas comment en écrire une, cet article peut vous aider.

 

#Apprendre les bases de RegEx

Apprendre RegEx à partir de rien peut prendre un certain temps, mais si vous comptez l'utiliser fréquemment dans votre travail quotidien et donc améliorer votre productivité de manière significative, cela peut valoir la peine d'essayer.

 Un bon point de départ est le tutoriel JS RegEx de W3School. Vous y apprendrez la syntaxe de base d'un code RegEx et la grammaire des modificateurs et des quantificateurs.

Comme il s'agit d'une opération plutôt compliquée pour les débutants, nous ne nous y attarderons pas dans cet article. Si vous voulez prendre un moyen facile de profiter instantanément des RegEx, un RegEx répondra à votre besoin immédiat.

 

#Utiliser l'outil RegEx intégré à Octoparse

Il existe des outils prêts à l'emploi qui aident les gens à écrire des RegEx d'une manière plutôt facile. Octoparse a un outil intégré pour faire le travail.

 octoparse regex tool box

Télécharger Octoparse

 

Avec cet outil intuitif à portée de main, la seule chose dont vous devez vous préoccuper est de trouver le modèle des numéros de téléphone que vous recherchez dans le texte. 

 

 

Exemples d'extraction de téléphones à l'aide de Regex

Il peut s'agir de plusieurs numéros de téléphone dans une seule grande chaîne et ces numéros de téléphone peuvent avoir différents formats. Voici un exemple de format de fichier :

  • (021)1234567
  • (123) 456 7899
  • (123).456.7899
  • (123)-456-7899
  • 123-456-7899
  • 123 456 7899
  • 1234567899
  • 0511-4405222
  • 021-87888822
  • +8613012345678
  • ...

 

Quel est le moyen le plus simple d'extraire des numéros de téléphone comme ceux-ci ? Nous allons maintenant utiliser l'outil Expression régulière pour générer des expressions régulières et faire correspondre rapidement tous les numéros de téléphone.

 

Tout d'abord, trouvez le caractère commun avec lequel chaque numéro de téléphone commence et finit. Par exemple, pour le texte ciblé ci-dessus, je trouve son code source indiqué ci-dessous.

 

<p>Here is an example of file format </p>

<ul>

  <li>(021)1234567 </li>

  <li>(123) 456 7899 </li>

  <li>(123).456.7899 </li>

  <li>(123)-456-7899 </li>

  <li>123-456-7899 </li>

  <li>123 456 7899 </li>

  <li>1234567899 </li>

  <li>0511-4405222 </li>

  <li>021-87888822 </li>

  <li>+8613012345678 </li>

  <li>... </li>

</ul>

 

Chaque numéro de téléphone commence par <li> et se termine par </li>. Et nous pouvons utiliser l'outil RegEx dans Octoparse pour extraire rapidement tous les numéros de téléphone. 

       1. Lancez Octoparse et ouvrez l'outil RegEx.

       2.Copiez et collez le code source dans la case "Texte source".

          Sélectionnez ensuite l'option "Commencer par" et entrez "<li>".  

       3. Ensuite, sélectionnez l'option "End With" et entrez "</li>".

           N'oubliez pas de sélectionner l'option "Match All".

       4. Cliquez sur "Match".

 

 

regex to extract phone numbers example

 

Une fois l'opération terminée, tous les numéros de téléphone correspondants sont répertoriés dans la case située à gauche.

 

Toutefois, si vous ne parvenez pas à trouver le caractère commun avec lequel chaque numéro de téléphone commence et se termine, l'outil ne suffira pas à générer un code Regex. Vous devrez peut-être vous équiper de plus de connaissances sur la syntaxe Regex et écrire une expression régulière spéciale pour chaque motif.

 

J'ai écrit deux expressions régulières supplémentaires pour deux formats de numéros de téléphone.

 

  • Regular Expression:

Code: \d{3}-\d{8}|\d{4}-\d{7}

Match: 0511-4405222 | 021-87888822

 

 

  • Regular Expression:

Code: \(\d{2,4}\)\d{6,7}

Match: (021)1234567 | (0411)123456 | (000)000000 |(123)1234567

 

 

La clé de cette tâche consiste à trouver un modèle de numéros de téléphone dans le texte et à créer un code Regex qui décrit ce modèle.

Outre l'extraction de données, l'outil d'expression régulière Octoparse est également utile pour le nettoyage des données.

 

Artículo en español: RegEx: Cómo Extraer Todas Las Direcciones de Email de Cadenas o Archivos TXT También puede leer artículos de web scraping en el sitio web oficial

 

 

 

Plus de Ressources:

Top 20 des outils de Web Crawling pour scraper rapidement les sites Web

Web Scraping simple à l'aide de Google Sheets (mise à jour 2020)

Télécharger en masse des images à partir de tous les sites Web 

Comment scraper des sites Web sans être bloqué en 5 minutes?

5 choses que vous devez savoir sur le contournement de CAPTCHA pour le Web Scraping

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter