undefined
Blog > Data Collection > Post

Quatre méthodes pour scraping HTML

Tuesday, October 18, 2022

Lorsque quelqu'un a demandé à Michel-Ange comment il a pu créer un tel chef-d'œuvre "David", il a répondu : "C'était facile. Je suis allé à la carrière et j'ai vu un énorme marbre. Tout ce que j'ai fait, c'est enlever tout ce qui ne ressemblait pas à David."

De même, nous supprimons les informations dont nous n'avons pas besoin et extrayons ce dont nous avons besoin d'une page Web.

Dans nos articles précédents, nous avons parlé de la façon de modifier le HTML avec des expressions régulières. Voir les articles ci-dessous.

 

 

  • Utiliser l'expression régulière pour adapter le HTML
  • Texte avancé - Recommandations pour traiter le HTML avec l'expression régulière
  • Extraire le texte d'un document HTML
  • Comparaison des analyseurs HTML ( de Wikipedia)

 

 

Alternatives :

1. Expression régulière

L'utilisation d'une expression régulière pour faire matcher le HTML a expliqué comment extraire le contenu du HTML avec des expressions régulières ci-dessus. Mais cette méthode n'est pas recommandée dans la pratique. Les raisons principales sont qu'il est relativement long d'écrire et de vérifier les expressions régulières, difficile de prévoir l'efficacité et difficile de comprendre rapidement l'expression régulière.

 

2. XPath

XPath est parfait pour l'extraction de contenu de pages Web et est recommandé. La syntaxe XPath est simple, et il est plus facile de lire, d'écrire et de tester XPath que l'expression régulière. De nombreux langages de programmation supportent une telle bibliothèque.

 

Les articles ci-dessous peuvent être utiles :

 

 

3. Sélecteur CSS

Le sélecteur CSS est également un bon choix pour l'extraction de contenu Web. Il sélectionne un élément HTML par document.querySelector() et document.querySelectorAll () sélectionne un groupe d'éléments HTML ayant les mêmes caractéristiques. La syntaxe du sélecteur CSS est similaire à la syntaxe XPath. Mais tous les langages de programmation ne supportent pas une bibliothèque de sélecteurs CSS.

 

Code d'exemple:

<div class="test" id="testId">

     <p><span>Test</span></p>

</div>

<script type="text/javascript">    

     var testElement= document.getElementById('testId');

     var element = testElement.querySelector('.test span');

     console.log(element.innerText);

</script>

 

 

Pour plus d'informations sur Octoparse, veuillez cliquer ici. Inscrivez-vous dès aujourd'hui.

 

 

 

Lectures conseillées:

Utiliser un serveur proxy pour le web scraping

Exporter les résultats de recherche de Google Maps vers Excel

Comment scraper Zillow gratuitement?

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour des autres
questions sur le web scraping !

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter