undefined
Blog > Web Scraping > Post

Comment extraire le contenu d'une page Web?

Friday, September 10, 2021

Le web scraping est une technique permettant d'obtenir du contenu web pour notre propre usage. Elle est largement utilisée dans tous les secteurs d'activité. Les freelances peuvent extraire des articles en ligne pour effectuer des recherches sur des sujets précis. Quant aux entreprises de toutes tailles, elles extraient des données de sites Web pour procéder à des analyses commerciales. Voici quelques conseils sur la façon d'extraire du contenu de pages Web.

 

Comment obtenir du contenu à partir de pages web 

Pour les programmeurs ou les développeurs, l'utilisation de python est le moyen le plus courant de construire un scraper/crawler web pour extraire du contenu web. Par exemple, le code de la capture d'écran ci-dessous peut être utilisé pour extraire des données d'un site Web public - pokemondb.net.

 

 (picture from /gist.github.com/anchetaWern/6150297)

Pour la plupart des personnes qui ne savent pas coder, il est préférable d'utiliser des outils d'extraction des pages Web pour en extraire un contenu spécifique. Vous trouverez ci-dessous quelques solutions utilisant Octoparse :

 

1. Extraire le contenu de la page web dynamique

Les pages web peuvent être statiques ou dynamiques. Il est fréquent que le contenu web que vous souhaitez extraire change au cours de la journée. Il est fréquent que le site web applique la technique AJAX. Ajax permet à la page Web d'envoyer et de recevoir des données en arrière-plan sans interférer avec l'affichage de la page Web. Dans ce cas, vous pouvez activer l'option AJAX pour permettre à Octoparse d'extraire le contenu de pages Web dynamiques.

 

 Vérifiez le paramètre du délai d'attente AJAX dans Octoparse.

 

2. Extraire le contenu qui est caché de la page web

Avez-vous déjà voulu obtenir des données spécifiques d'un site Web, mais le contenu n'apparaît qu'après avoir déclenché un lien ou passé le curseur de la souris ? Par exemple, certaines informations de contact sur craigslist.org apparaissent après que vous ayez cliqué sur le bouton Répondre.

 

En fait, un tel contenu caché pourrait se trouver dans le code source HTML de cette page web. Octoparse peut extraire le texte entre le code source. Il est facile d'utiliser la commande "Cliquer sur l'élément" ou une commande "Curseur sur" dans le panneau "Action Tip" pour réaliser l'action d'extraction.

 

3. Extraire le contenu de la page web avec un défilement infini

Vous pouvez également remarquer que certains messages ne sont téléchargés qu'une fois que vous avez fait défiler la page Web jusqu'au bas de celle-ci, comme c'est le cas pour Twitter. Cela est dû au fait que les sites Web appliquent le défilement infini. Le défilement infini s'accompagne généralement d'AJAX ou de JavaScript pour que les requêtes se produisent lorsque vous atteignez la fin de la page Web. Dans ce cas, vous pouvez définir le délai d'attente d'AJAX, sélectionner la méthode de scrolling et les durées de scrolling pour personnaliser la manière dont vous souhaitez que le robot extraie le contenu.

 

Vérifier l'option "Scroll Down" dans Octoparse pour extraire le contenu.

 

4. Extraire les liens hypertextes de la page web

Un site Web normal contient au moins un lien hypertexte et si vous souhaitez extraire tous les liens d'une page Web, vous pouvez utiliser Octoparse pour vous aider à extraire toutes les URL de l'ensemble du site.

 

5. Extraire le texte de la page web

Si vous souhaitez extraire le contenu situé entre les tags HTML tels que le tag <DIV> ou le tag <SPAN>. Octoparse vous permet d'extraire tout le texte entre le code source.

 

6. Extraire l'URL des images de la page web

Octoparse ne peut pas télécharger l'image mais l'URL de l'image.

 

En conclusion

Octoparse peut extraire tout ce qui est affiché sur la page Web, et l'exporter vers des formats structurés comme Excel, CSV, HTML, TXT et d'autres bases de données. Cependant, Octoparse n'est pas encore capable de télécharger des images, des vidéos, des Gif et des canvas. Nous espérons que dans un futur proche, ces fonctions seront ajoutées à la version mise à jour. Cliquez ICI pour télécharger Octoparse et en savoir plus grâce aux riches tutoriels.

 

 

Artículo en español:  Extraer Contenido de La Página Web

También puede leer artículos de web scraping en el sitio web oficial

 

Auteur : L'équipe Octoparse 

Lectures recommandées

 

Les 3 Meilleures Façons d'Extraire les Données d'un Site Web

9 Défis de Web Scraping que Vous Devriez Connaître

Template Mode : Modèle de web scraping

Web Scraping en utilisant Python : Un guide étape par étape

Vidéo: Comment Scraper des avis sur Google Play

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter