undefined
Blog > Web Scraping > Post

Qu'est-ce que le Web scraping et A quoi sert-il ?

Friday, September 17, 2021

Sommaire

Qu'est-ce que le web scraping?

Comment fonctionne le web scraping?

L'origine du web scraping?

Comment le Web scraping est-il développé?

Quel est l'avenir du web scraping?

 

Qu'est-ce que le web scraping?

Le "web scraping", également appelé "web harvesting" et "web data extraction", consiste à collecter des données sur des sites web via le protocole de transfert hypertexte (HTTP) ou par le biais de navigateurs web.

 

Comment fonctionne le web scraping?

En général, le web scraping comporte trois étapes : 

    • Tout d'abord, nous envoyons une requête GET au serveur et nous recevons une réponse sous la forme d'un contenu Web.
    • Ensuite, nous analysons le code HTML d'un site Web en suivant un une structure en arborescence.
    • Enfin, nous utilisons la bibliothèque python pour rechercher l'arborescence d'analyse syntaxique. 

 

Je sais ce que vous pensez : le web scraping a l'air bien sur le papier mais est en fait plus complexe dans la pratique. Il faut coder pour obtenir les données que l'on veut, ce qui en fait le privilège de celui qui maîtrise la programmation. Comme alternative, il existe des outils de scraping web qui automatisent l'extraction de données web en quelques clics.

Un outil de scraping web chargera les URLs données par les utilisateurs et reconstituera le site web entier. Par conséquent, vous pouvez extraire n'importe quelle donnée web par un simple pointer-cliquer et la déposer dans un format réalisable sur votre ordinateur sans codage. 

Par exemple, vous pourriez vouloir extraire des messages et des commentaires de Twitter. Tout ce que vous avez à faire est de coller l'URL dans le scraper, de sélectionner les messages et les commentaires souhaités et d'exécuter. Vous économisez ainsi du temps et des efforts en évitant le travail fastidieux du copier-coller. 

 

L'origine du web scraping?

Bien que pour un grand nombre de personnes, cela semble être un tout nouveau concept, l'histoire du web scraping remonte à l'époque de la naissance du World Wide Web.

 

Au tout début, l'internet n'était même pas consultable. Avant le développement des moteurs de recherche, Internet n'était qu'une collection de sites FTP (File Transfer Protocol) dans lesquels les utilisateurs naviguaient pour trouver des fichiers spécifiques partagés. Pour trouver et organiser les données distribuées disponibles sur Internet, les gens ont créé un programme automatisé spécifique, connu aujourd'hui sous le nom de web crawler/bot, pour aller chercher toutes les pages sur Internet et ensuite copier tout le contenu dans des bases de données pour l'indexer. 

 

Puis l'internet se développe et finit par abriter des millions de pages web qui contiennent une multitude de données sous de multiples formes, notamment des textes, des images, des vidéos et des sons. Il se transforme en une source de données ouverte.

 

La source de données étant devenue incroyablement riche et facilement consultable, les gens ont commencé à trouver simple de rechercher les informations qu'ils voulaient, qui étaient souvent réparties sur un grand nombre de sites web, mais le problème se posait lorsqu'ils voulaient obtenir des données sur l'internet - tous les sites web ne proposaient pas d'options de téléchargement, et la copie à la main était évidemment fastidieuse et inefficace.

 

Et c'est là que le web scraping est intervenu. Le scraping web est en fait alimenté par des robots/crawlers web qui fonctionnent de la même manière que ceux utilisés dans les moteurs de recherche. C'est-à-dire qu'ils récupèrent et copient. La seule différence pourrait être l'échelle. Le web scraping se concentre sur l'extraction de données spécifiques à partir de certains sites web, alors que les moteurs de recherche récupèrent souvent la plupart des sites web de l'Internet.

 

Comment le Web scraping est-il développé?

1989 La naissance du World Wide Web 

En termes techniques, le World Wide Web est différent de l'Internet. Le premier fait référence à l'espace d'information, tandis que le second est le réseau constitué d'ordinateurs.     

Grâce à Tim Berners-Lee, l'inventeur du WWW, il a apporté les 3 choses suivantes qui font depuis longtemps partie de notre vie quotidienne:

  • -URL que nous utilisons pour aller sur le site web que nous voulons;
  • -Des hyperliens intégrés qui nous permettent de naviguer entre les pages web, comme les pages de détail du produit sur lesquelles nous pouvons trouver les spécifications du produit et beaucoup d'autres choses comme "les clients qui ont acheté ceci ont aussi acheté" ;
  • -Des pages web qui contiennent non seulement des textes mais aussi des images, des sons, des vidéos et des composants logiciels.

 

1990 Le premier navigateur web

Inventé également par Tim Berners-Lee, il s'appelait WorldWideWeb (sans espaces), du nom du projet WWW. Un an après l'apparition du web, les gens avaient un moyen de le voir et d'interagir avec lui.

 

1991 Le premier serveur web et la première page web http://

Le web a continué à se développer à une vitesse plutôt modérée. En 1994, le nombre de serveurs HTTP était supérieur à 200.

 

1993-juin Premier robot web - World Wide Web Wanderer

Bien que fonctionnant de la même manière que les robots web d'aujourd'hui, il était destiné uniquement à mesurer la taille du web.

 

1993-décembre Premier moteur de recherche web basé sur un crawler - JumpStation

Comme il n'y avait pas tant de sites Web disponibles sur le Web, les moteurs de recherche de l'époque comptaient sur les administrateurs humains des sites Web pour collecter et modifier les liens dans un format particulier. JumpStation a fait un nouveau bond en avant. C'est le premier moteur de recherche WWW qui s'appuie sur un robot web.

 

Depuis lors, les gens ont commencé à utiliser ces robots programmatiques pour récolter et organiser l'Internet. Depuis Infoseek, Altavista et Excite jusqu'à Bing et Google aujourd'hui, le cœur d'un robot de moteur de recherche reste le même: trouver une page web, la télécharger (fetch), extraire toutes les informations présentées sur la page web, puis les ajouter à la base de données du moteur de recherche.

 

Les pages Web étant conçues pour des utilisateurs humains et non pour une utilisation automatisée, même avec le développement des robots Web, il était encore difficile pour les ingénieurs en informatique et les scientifiques de faire du scraping Web, sans parler des personnes normales. Des personnes se sont donc consacrées à rendre le web scraping plus accessible. En 2000, Salesforce et eBay ont lancé leur propre API, grâce à laquelle les programmeurs ont pu accéder et télécharger certaines des données disponibles au public. Depuis lors, de nombreux sites Web proposent des API pour permettre aux utilisateurs d'accéder à leur base de données publique. Les API offrent aux développeurs un moyen plus convivial de faire du web scraping, en rassemblant simplement les données fournies par les sites web.

 

2004 Python Beautiful soup

Tous les sites Web ne proposent pas d'API. Et même s'ils le font, ils ne fournissent pas toutes les données que vous souhaitez. Les programmeurs s'efforçaient donc toujours de mettre au point une approche susceptible de faciliter le raclage du Web. En 2004, Beautiful Soup a été publié. Il s'agit d'une bibliothèque conçue pour Python. 

En programmation informatique, une bibliothèque est une collection de modules de script, comme des algorithmes couramment utilisés, qui permettent d'être utilisés sans réécriture, simplifiant ainsi le processus de programmation. Avec des commandes simples, Beautiful Soup donne un sens à la structure du site et aide à analyser le contenu du conteneur HTML. Elle est considérée comme la bibliothèque la plus sophistiquée et la plus avancée pour le web scraping, et aussi comme l'une des approches les plus courantes et les plus populaires aujourd'hui.

 

2005-2006 Logiciel de scraping web visuel

En 2006, Stefan Andresen et son logiciel Kapow Software (racheté par Kofax en 2013) ont lancé la version 6.0 de Web Integration Platform, un logiciel que l'on considère aujourd'hui comme un logiciel de scraping visuel du Web, qui permet aux utilisateurs de mettre simplement en évidence le contenu d'une page Web et de structurer ces données dans un fichier Excel ou une base de données utilisables.

 

Enfin, il existe un moyen pour les non-programmeurs massifs de faire du web scraping par eux-mêmes. Depuis lors, le web scraping commence à se généraliser. Désormais, les non-programmeurs peuvent facilement trouver plus de 80 logiciels d'extraction de données prêts à l'emploi qui proposent des processus visuels.

Quel est l'avenir du web scraping?

Nous collectons les données, les traitons et les transformons en informations exploitables. Il est prouvé que les géants du monde des affaires comme Microsoft et Amazon investissent beaucoup d'argent dans la collecte de données sur leurs consommateurs afin de les cibler avec des publicités personnalisées, alors que les petites entreprises sont exclues de la compétition marketing en raison du manque de capital disponible pour rassembler des données.

 

Grâce aux outils de scraping web, tout individu, entreprise ou organisation est désormais en mesure d'accéder à des données web à des fins d'analyse. En cherchant "web scraping" sur guru.com, vous obtenez 10 088 résultats de recherche, ce qui signifie que plus de 10 000 freelances proposent des services de web scraping sur le site.

 

La demande croissante de données Web par les entreprises de tous les secteurs fait prospérer le marché du scraping Web, ce qui crée de nouveaux emplois et de nouvelles opportunités commerciales.

 

Par ailleurs, comme toute autre industrie émergente, le scraping web suscite également des préoccupations d'ordre juridique. Le contexte juridique entourant la légitimité du web scraping continue d'évoluer. Son statut juridique reste très spécifique au contexte. Pour l'instant, bon nombre des questions juridiques les plus intéressantes découlant de ces activités restent sans réponse.

 

L'un des moyens de contourner les conséquences juridiques potentielles du scraping web est de consulter des fournisseurs de services de scraping web professionnels. Octoparse est une entreprise de scraping web qui propose à la fois des services de scraping et des outils d'extraction de données web. Qu'il s'agisse d'entrepreneurs individuels ou de grandes entreprises, ils bénéficieront de leur technologie avancée de scraping.

 

Artículo en español: Web Scraping: Cómo Comenzó y Qué Sucederá en El Futuro
También puede leer artículos de web scraping en el Website Oficial

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter