undefined
Blog > Octoparse > Post

Comment scraper des sites Web sans être bloqué en 5 minutes?

Tuesday, September 14, 2021

Le Web scraping est une technique souvent utilisée pour automatiser le comportement de navigation humaine afin de récupérer efficacement de grandes quantités de données à partir des pages Web.

 

Quoique divers outils de Webscraping,par exemple Octoparse, deviennent populaires et profitent considérablement aux personnes dans tous les domaines, ils ont un prix pour les propriétaires de sites Web. Un exemple simple est celui où le Web scraping surcharge un serveur Web et entraîne une panne du serveur. De plus en plus de propriétaires de sites Web ont équipé leurs sites de toutes sortes de techniques anti-grattage pour bloquer les scrapers, ce qui rend le web scraping plus difficile. Cependant, il existe encore des moyens de lutter contre le blocage. Dans cet article, nous allons parler de 5 conseils que vous pouvez suivre pour éviter problème de blocage.

 

1. Ralentisser le scraping

La plupart des activités de web scraping visent à extraire les données le plus rapide possible. Néanmoins, quand un humain visite un site, la navigation sera beaucoup plus lente par rapport à ce qui se passe avec le web scraping. En conséquence, il est vraiment facile pour un site de vous attraper comme un scraper en suivant votre vitesse d'accès. Une fois qu'il trouve que vous parcourez les pages trop rapidement, il soupçonnera que vous n'êtes pas un humain et vous bloquera naturellement.

Veuillez ne pas surcharger le site. Vous pouvez mettre un délai aléatoire entre les demandes et réduire l'accès aux pages simultanées à 1 à 2 pages en même temps. Apprenez à bien traiter le site Web, puis vous pourrez continuer à le scraper.

A L'Octoparse, les utilisateurs peuvent  configurer un temps d'attente pour toutes les étapes du flux de travail dans le but de contrôler la vitesse de grattage. Il existe même une option «aléatoire» pour rendre le scraping plus humain.

 

 

 

 

2. Utiliser des serveurs Proxy

Quand un site détecte qu'il y a un certain nombre de demandes qui vient d'une seule adresse IP, il bloquera facilement l'adresse IP. Pour éviter d'envoyer toutes vos demandes via la même adresse IP, vous pouvez utiliser des Serveurs Proxy. Un serveur proxy est un serveur (un système informatique ou une application) qui joue le rôle d'intermédiaire pour les requêtes des clients recherchant des ressources auprès d'autres serveurs (de Wikipedia: Proxy server). Il vous permet d'envoyer des demandes à des sites Web en utilisant l'adresse IP que vous avez configurée, en masquant votre véritable adresse IP.

Certainement, si vous utilisez une seule adresse IP configurée dans le serveur proxy, il est toujours facile de se bloquer. Vous devez créer un pool d'adresses IP et les utiliser de manière aléatoire pour acheminer vos demandes via une série d'adresses IP différentes.

Il y a beaucoup de serveurs, tels que les VPN, peuvent vous aider à obtenir une rotation IP. Octoparse Cloud Service est pris en charge par des centaines de serveurs cloud, chacun avec une adresse IP unique. Lorsqu'une tâche d'extraction est configurée pour s'exécuter dans le Cloud, les requêtes sont effectuées sur le site Web cible via différentes adresses IP, ce qui minimise les chances d'être tracées. L'extraction locale Octoparse permet aux utilisateurs de configurer des proxies pour éviter d'être bloqués.

 

 

3. Appliquer les différents motifs de scraping

Les humains naviguent sur un site avec des clics aléatoires ou une durée d'affichage; Mais, le web scraping suit toujours le même modèle d'exploration car les robots programmés suivent une logique spécifique. Ainsi, les mécanismes anti-grattage peuvent facilement détecter le robot en identifiant les comportements de grattage répétitifs effectués sur un site Web.

Vous devrez changer votre modèle de scraping de temps en temps et incorporer des clics aléatoires, des mouvements de souris ou du temps d'attente pour rendre le web scrapingplus humain.

Avec Octoparse, vous pouvez facilement configurer un flux de travail en 3 à 5 minutes. Vous pouvez facilement ajouter des clics et des mouvements de souris avec des glissements et des points ou même reconstruire un flux de travail rapidement, ce qui économise beaucoup de temps de codage pour les programmeurs et aide les non-codeurs à créer facilement leurs propres grattoirs.

 

4. Changer d'utilisateur-agents

Un user-agent (UA) est une chaîne dans l'en-tête d'une demande, identifiant le navigateur et le système d'exploitation sur le serveur Web. Chaque demande effectuée par un Web navigateur contient un user-agent. Utiliser un user-agent pour un nombre anormalement élevé de requêtes vous mènera au blocage.

Pour passer le blocage, vous devez changer la fréquence de l'agent utilisateur au lieu de vous en tenir à une.

Beaucoup de programmeurs ajoutent de faux user-agent dans l'en-tête ou établissent manuellement une liste des user-agents pour éviter d'être bloqués. Avec Octoparse, vous pouvez facilement activer la rotation UA ​​automatique dans votre crawler pour réduire le risque d'être bloqué.

 

 

 

5. Faire attention aux pièges

Les Honeypots sont des liens invisibles pour les visiteurs normaux, mais qui sont visibles dans le code HTML et peuvent être trouvés par les web scrapers. Ils sont comme des pièges pour détecter le grattoir en les dirigeant vers des pages vierges. Une fois qu'un visiteur particulier parcourt une page de Honeypot, le site Web peut être pense que c'est pas un visiteur humain et commence à limiter ou à bloquer toutes les demandes de ce client.

Pour un site particulier, on fait  la création d'un scraper, il vaut la peine de regarder attentivement pour vérifier s'il existe des liens cachés aux utilisateurs utilisant un navigateur standard.

Octoparse utilise XPath pour des actions de capture ou de clic précises, en évitant de cliquer sur les faux liens (voir comment utiliser XPath pour localiser l'élément ici)

 

Tous les tips de cet article peuvent vous aider à éviter d'être bloqué dans une certaine mesure. Quand la technologie de web scraping fait le crawel, la technologie anti-scraping grimpe de dix. Partagez vos idées avec nous ou si vous pensez d'autres choses,veuillez ajouter à cette liste.

 

Artículo en español: ¿Cómo Scrape Websites sin ser bloqueado?
También puede leer artículos de web scraping en el website oficial

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter