undefined
Blog > Connaissances > Post

5 choses que vous devez savoir sur le contournement de CAPTCHA pour le Web Scraping

Friday, August 06, 2021

Si vous avez déjà essayé de vous connecter à un site Web, il y a de fortes chances que l'on vous ait demandé de saisir des caractères qui ne sont pas faciles à lire. Les caractères illisibles sont appelés CAPTCHA. Ils sont un peu ennuyeux pour les utilisateurs et rendent les utilisateurs de web scrapers souvent être fous , car ils sont difficiles à gérer en grattant des robots.

Aujourd'hui, nous allons parler de 5 choses que vous devez savoir sur CAPTCHA pour vous aider à mieux le contourner pour le Webscraping .

 

1. Qu'est-ce que CAPTCHA?

2. Comment fonctionne CAPTCHA

3. Quels sont les types courants de CAPTCHA 

4. Pourquoi les sites Web appliquent-ils CAPTCHA

5. Comment gérer CAPTCHA pour le web scraping

 

 

1. Qu'est-ce que CAPTCHA?

According to Wikipedia, CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) is a type of challenge-response test used in computing to determine whether or not the user is human.Selon Wikipedia, CAPTCHA (test de Turing public complètement automatisé pour séparer les ordinateurs et les humains) est un type de test de défi-réponse utilisé en informatique pour déterminer si l'utilisateur est humain ou non.

Il est couramment utilisé sur Internet, en particulier lors de l'achat de produits en ligne ou de la connexion à un site Web.

 

2. Comment fonctionne CAPTCHA

La technologie CAPTCHA est basée sur le test de Turing qui est utilisé pour tester si une machine peut penser comme des humains. Le but du CAPTCHA est de poser des questions ou de relever des défis que les ordinateurs sont incapables de relever. Il montre généralement une chaîne déformée de caractères ou de nombres aléatoires. Cela fonctionne parce qu’un humain qui regarde une image déformée peut lire les mots sans aucun défi, alors qu’un outil de grattage ne les reconnaît pas facilement. Même le système automatisé le plus sophistiqué, qui a été programmé pour numériser une image d'une page de texte imprimé et lire les mots de l'image, a encore des difficultés à lire les mots lorsque les mots sont trop obscurcis ou déformés.

 

 

3. Quels sont les types courants de CAPTCHA

CAPTCHA est disponible en plusieurs tailles et de différents types. Les types les plus courants de CAPTCHA sont le CAPTCHA basé sur du texte, le CAPTCHA basé sur l'image et le CAPTCHA basé sur l'audio.

Un test CAPTCHA basé sur du texte est composé de deux parties simples: une séquence générée aléatoirement de lettres et / ou de chiffres qui apparaissent comme une image déformée, et une zone de texte. Pour réussir le test et prouver votre identité humaine, tapez simplement les caractères que vous voyez dans l'image dans la zone de texte.

Montrer simplement les personnages n'est pas si difficile pour les robots. Pour augmenter la difficulté, il y a le CAPTCHA mathématique, qui implique un problème mathématique de base avec des nombres faciles à lire, et le CAPTCHA 3D, qui affiche les caractères avec un effet 3D.

 

CAPTCHA à base d'images fournit généralement aux utilisateurs des images d'objets, d'animaux, de personnes ou de paysages, au lieu d'un texte déformé, pour distinguer un humain d'un programme informatique. Les utilisateurs doivent sélectionner les images correctes qu'ils sont invités à identifier ou faire glisser un bloc dans une image pour la compléter.

CAPTCHA audio utilise des mots aléatoires ou des nombres tirés d'enregistrements, les combine et leur ajoute même du bruit. Les utilisateurs doivent entrer les mots ou les nombres dans l'enregistrement. Les CAPTCHA sonores sont plus difficiles à gérer en comparaison avec le contenu et les images CAPTCHA car il n'est pas facile de laisser un robot scraping apprendre à écouter.

 

4. Pourquoi les sites Web appliquent-ils CAPTCHA?

De nos jours, l'informatique est devenue omniprésente et les tâches et services informatisés sont  répandus, de sorte que des niveaux de sécurité accrus ont été plus importants. Le développement de CAPTCHA pour les ordinateurs vise à s'assurer qu'ils traitent avec des humains dans des situations où l'interaction humaine est essentielle à la sécurité, par exemple, se connecter à un site Web ou payer sur Internet.

CAPTCHA bloque également les spammeurs et les robots qui tentent de collecter automatiquement des données en ligne, tentent de s'inscrire automatiquement ou d'utiliser des sites Web, des blogs ou des forums. Il protège les sites Web contre le dépassement par le spam, les inscriptions frauduleuses et d'autres comportements illégaux.

 

5.Comment gérer CAPTCHA pour le web scraping

CAPTCHA peut facilement décomposer les robots que vous avez configurés une fois qu'il apparaît dans le processus d'extraction, il est donc essentiel de le gérer pour le Web scraping. La meilleure façon de gérer un CAPTCHA est de faire de votre mieux pour éviter de le rencontrer :). N'essayez jamais de trop gratter un site Web, mais agissez plutôt comme un humain. (Nous avons un autre article expliquant comment éviter les blocages lors du grattage et vous pouvez le vérifier ici.)

Mais il y a encore beaucoup de CAPTCHA qui ne peuvent être évités comme le CAPTCHA sur la page de connexion. Dans Octoparse, vous pouvez résoudre manuellement le CAPTCHA aussi facilement que ce que vous faites normalement lorsque vous naviguez sur un site. (Consultez un exemple ici.)

Pour les personnes qui codent leurs propres scrapers, il existe de nombreux solveurs CAPTCHA qui peuvent être intégrés dans leur système de scarping.

Par exemple, Death by CAPTCHA et Bypass CAPTCHA permettent aux utilisateurs de se connecter au service via l'API pour réaliser la résolution automatique de CAPTCHA pendant le processus de scraping. Ces outils de résolution CAPTCHA peuvent traiter le texte normal CAPTCHA et même reCAPTCHA. Si nécessaire, 2CAPTCHA est un merveilleux fournisseur de services pour vous aider à résoudre le problème.

 

CAPTCHA peut être un problème épineux pour le web scraping. Mais ne vous inquiètez pas. Avec chaque génération de CAPTCHA, il y a chaque génération de bots. CAPTCHA est devenu vaincu avec la montée en puissance des outils de scraping et des solveurs CAPTCHA. Vous pouvez profiter du Web scraping sans entrave à l'aide de ces outils.

 

Auteur: Yina Huang

Correcteur: Isabel Li

 

Artículo en español: 5 Cosas que Debes Saber al Evitar CAPTCHA para El Web Scraping
También puede leer artículos de web scraping en El Website Oficial
 

 

Plus de ressources
 

Top 20 des outils de Web Scraping pour gratter rapidement les sites Web

25 astuces pour développer votre activité avec l'extraction de données Web

Les 30 meilleurs outils de visualisation de données en 2021

Vidéo: Créez votre premier Scraper avec Octoparse 8

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter