logo
languageFRdown
menu

Quatre méthodes pour scraping HTML

5 minutes de lecture

Lorsque quelqu’un a demandé à Michel-Ange comment il a pu créer un tel chef-d’œuvre “David”, il a répondu : “C’était facile. Je suis allé à la carrière et j’ai vu un énorme marbre. Tout ce que j’ai fait, c’est enlever tout ce qui ne ressemblait pas à David.”

De même, nous supprimons les informations dont nous n’avons pas besoin et extrayons ce dont nous avons besoin d’une page Web.

Dans nos articles précédents, nous avons parlé de la façon de modifier le HTML avec des expressions régulières. Voir les articles ci-dessous.

  • Utiliser l’expression régulière pour adapter le HTML
  • Texte avancé – Recommandations pour traiter le HTML avec l’expression régulière
  • Extraire le texte d’un document HTML
  • Comparaison des analyseurs HTML ( de Wikipedia)

Alternatives :

1. Expression régulière

L’utilisation d’une expression régulière pour faire matcher le HTML a expliqué comment extraire le contenu du HTML avec des expressions régulières ci-dessus. Mais cette méthode n’est pas recommandée dans la pratique. Les raisons principales sont qu’il est relativement long d’écrire et de vérifier les expressions régulières, difficile de prévoir l’efficacité et difficile de comprendre rapidement l’expression régulière.

2. XPath

XPath est parfait pour l’extraction de contenu de pages Web et est recommandé. La syntaxe XPath est simple, et il est plus facile de lire, d’écrire et de tester XPath que l’expression régulière. De nombreux langages de programmation supportent une telle bibliothèque.

Les articles ci-dessous peuvent être utiles :

 

3. Sélecteur CSS

Le sélecteur CSS est également un bon choix pour l’extraction de contenu Web. Il sélectionne un élément HTML par document.querySelector() et document.querySelectorAll () sélectionne un groupe d’éléments HTML ayant les mêmes caractéristiques. La syntaxe du sélecteur CSS est similaire à la syntaxe XPath. Mais tous les langages de programmation ne supportent pas une bibliothèque de sélecteurs CSS.

 

Code d’exemple:

<div class=”test” id=”testId”>

     <p><span>Test</span></p>

</div>

<script type=”text/javascript”>    

     var testElement= document.getElementById(‘testId’);

     var element = testElement.querySelector(‘.test span’);

     console.log(element.innerText);

</script>

 

Pour plus d’informations sur Octoparse, veuillez cliquer ici. Inscrivez-vous dès aujourd’hui.

Articles populaires

Explorer les sujets

Commencer votre découverte de Octoparse dès maintenant

Télécharger

Lecture conseillée