undefined
Blog > Octoparse > Post

Anti-scraping |Comment scraper des sites Web sans être bloqué en 5 minutes?

Thursday, March 17, 2022

Le Web scraping est une technique souvent utilisée pour automatiser le comportement de navigation humaine afin de récupérer efficacement de grandes quantités de données à partir des pages Web.Quoique divers outils de Webscraping,par exemple Octoparse, deviennent populaires et profitent considérablement aux personnes dans tous les domaines.

Dans cet article, nous allons parler de 5 conseils que vous pouvez suivre pour éviter problème de blocage pendant le web scraping.

 

1. Ralentisser le scraping

La plupart des activités de web scraping visent à extraire les données le plus rapide possible. Néanmoins, quand un humain visite un site, la navigation sera beaucoup plus lente par rapport à ce qui se passe avec le web crawler. En conséquence, il est vraiment facile pour un site de vous attraper comme un scraper en suivant votre vitesse d'accès. Une fois qu'il trouve que vous parcourez les pages trop rapidement, il soupçonnera que vous n'êtes pas un humain et vous bloquera naturellement.

Donc veuillez ne pas surcharger le site. Vous pouvez mettre un délai aléatoire entre les demandes et réduire l'accès aux pages simultanées à 1 à 2 pages en même temps. Apprenez à bien traiter le site Web, puis vous pourrez continuer à le scraper.

A L'Octoparse, les utilisateurs peuvent configurer un temps d'attente pour toutes les étapes du flux de travail. Il existe même une option «aléatoire» pour rendre le scraping plus humain-like.

 

 

 

 

2. Utiliser des serveurs Proxy

Quand un site détecte qu'il y a un certain nombre de demandes qui vient d'une seule adresse IP, il bloquera facilement l'adresse IP. Pour éviter d'envoyer toutes vos demandes via la même adresse IP, vous pouvez utiliser des Serveurs Proxy. Un serveur proxy est un serveur (un système informatique ou une application) qui joue le rôle d'intermédiaire pour les requêtes des clients recherchant des ressources auprès d'autres serveurs (de Wikipedia: Proxy server). Il vous permet d'envoyer des demandes à des sites Web en utilisant l'adresse IP que vous avez configurée, en masquant votre véritable adresse IP.

Certainement, si vous utilisez une seule adresse IP configurée dans le serveur proxy, il est toujours facile de se bloquer. Vous devez créer un pool d'adresses IP et les utiliser de manière aléatoire pour acheminer vos demandes via une série d'adresses IP différentes.

Il y a beaucoup de serveurs, tels que les VPN, peuvent vous aider à obtenir une rotation IP. Octoparse Cloud Service est pris en charge par des centaines de serveurs cloud, chacun avec une adresse IP unique. Lorsqu'une tâche d'extraction est configurée pour s'exécuter dans le Cloud, les requêtes sont effectuées sur le site Web cible via différentes adresses IP, ce qui minimise les chances d'être tracées. L'extraction locale Octoparse permet aux utilisateurs de configurer des proxies pour éviter d'être bloqués.

 

 

3. Appliquer les différents motifs de scraping

Les humains naviguent sur un site avec des clics aléatoires ou une durée d'affichage; Mais, le web scraping suit toujours le même modèle d'exploration car les robots programmés suivent une logique spécifique. Ainsi, les mécanismes anti-grattage peuvent facilement détecter le robot en identifiant les comportements de grattage répétitifs effectués sur un site Web.

Vous devrez changer votre modèle de scraping de temps en temps et incorporer des clics aléatoires, des mouvements de souris ou du temps d'attente.

Avec Octoparse, vous pouvez facilement configurer un flux de travail en 3 à 5 minutes. Vous pouvez aussi ajouter des clics et des mouvements de souris ou même reconstruire un flux de travail rapidement, ce qui économise beaucoup de temps de codage pour les programmeurs et aide les non-codeurs à créer facilement leurs propres grattoirs.

 

4. Changer d'utilisateur-agents

Un user-agent (UA) est une chaîne dans l'en-tête d'une demande, identifiant le navigateur et le système d'exploitation sur le serveur Web. Chaque demande effectuée par un Web navigateur contient un user-agent. Utiliser un user-agent pour un nombre anormalement élevé de requêtes vous mènera au blocage.

Pour passer le blocage, vous devez changer la fréquence de l'agent utilisateur au lieu de vous en tenir à une.

Beaucoup de programmeurs ajoutent de faux user-agent dans l'en-tête ou établissent manuellement une liste des user-agents pour éviter d'être bloqués. Avec Octoparse, vous pouvez facilement activer la rotation UA ​​automatique dans votre crawler pour réduire le risque d'être bloqué.

 

 

 

5. Faire attention aux pièges

Les Honeypots sont des liens invisibles pour les visiteurs normaux, mais qui sont visibles dans le code HTML et peuvent être trouvés par les web scrapers. Ils sont comme des pièges pour détecter le crawler en les dirigeant vers des pages vierges. Une fois qu'un visiteur particulier parcourt une page de Honeypot, le site Web peut être pense que c'est pas un visiteur humain et commence à limiter ou à bloquer toutes les demandes de ce client.

Pour un site particulier, pour créer un scraper, il vaut la peine de regarder attentivement pour vérifier s'il existe des liens cachés aux utilisateurs utilisant un navigateur standard.

Octoparse utilise XPath pour des actions de capture ou de clic précises, en évitant de cliquer sur les faux liens (voir comment utiliser XPath pour localiser l'élément ici)

 

Tous les tips de cet article peuvent vous aider à éviter d'être bloqué dans une certaine mesure. Partagez vos idées avec nous ou si vous pensez d'autres choses,veuillez ajouter à cette liste.

  

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour des autres
questions sur le web scraping !

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter