Résoudre le Captcha

Ce tutoriel va vous présenter comment résoudre les captchas.

Mis à jour il y a plus d’une semaine

CAPTCHA est une technique anti-scraping très courante appliquée par de nombreux sites web sous forme différente.

Pour vous aider à améliorer l'efficacité du scraping, Octoprase peut actuellement gérer automatiquement les trois types de Captcha : hCaptcha, ReCaptcha V2, et ImageCaptcha.

hCaptcha et ReCaptcha V2 peuvent être résolus de manière similaire, alors qu'il est plus compliqué de mettre en place une résolution pour traiter ImageCaptcha.

ce tutoriel va vous aider à avoir une compréhension de base de chaque Captcha et de les traiter avec Octoparse.


1. C'est quoi hCaptcha & ReCaptcha V2 ?

hCaptcha

Il est associe généralement à :

Bouton "Je suis un humain" avec le logo de hCaptcha

capthca type 1

et des questions simples (en images) qui sont faciles pour les humains et difficiles pour les machines :

captcha type 2

ReCaptcha V2

La plupart des ReCaptcha V2 comportent généralement "Je ne suis pas un robot" ; cependant, il arrive qu'ils contiennent des questions simples semblables à celles du hCaptcha.

captcha type 3

2. Comment résoudre hCaptcha et Recaptcha V2

  • Cliquez sur Ajouter dans le workflow

  • Sélectionnez "Solve CAPTCHA"

  • Cliquez sur l'étape de Résoudre CAPTCHA

  • Sélectionnez hCaptcha/ReCaptcha V2 comme type de CAPTCHA et puis cliquer Confirmer pour les sauvegarder

A Noter:

Remarque : hCaptcha et ReCaptcha ne seront pas résolus automatiquement jusqu'à une exécution réelle des données. Ainsi, vous devez activer le mode de navigation et le résoudre manuellement pour procéder à la création de la tâche.

Octoparse ne prend en charge que la résolution de ces deux types de captcha qui sont accompagnés d'un bouton Submit. Pour ceux qui n'ont pas de bouton Submit, Resolve Captcha ne fonctionnera pas.


3. Qu'est-ce que l'Image Captcha ?

ImageCaptcha est la méthode originale de vérification des humains. Il peut utiliser des mots ou des phrases connus ou des combinaisons aléatoires de chiffres et de lettres. Certains ImageCaptcha incluent également des variations dans la capitalisation.

image captcha

4. Résolution de l'image Captcha

Pour continuer ce tutoriel, vous auriez besoin de ce URL : https://democaptcha.com/demo-form-eng/image.html

A. Sélectionnez la zone de saisie et la zone d'image pour le Captcha

  • Cliquez sur le champ de saisie du Captcha

  • Sélectionnez Résoudre le Captcha dans le panneau Conseils

  • Cliquez sur la boîte à images

  • Cliquez sur le bouton Connexion/Soumettre/Confirmer pour continuer (parfois, il peut s'agir d'autres boutons, comme "Send" dans ce cas précis)

  • Cliquez sur Confirmer dans le panneau des conseils

configuration de captcha

B. Configurez un échec de résolution de Captcha

Maintenant, nous devons entraîner Octoparse à résoudre le Captcha en mettant en place un échec de résolution.

  • Cliquez sur le message d'erreur (dans ce cas - Des erreurs ont été détectées dans votre formulaire : Code de vérification invalide)

  • Cliquez sur Confirmer l'erreur dans le panneau Conseils

C. Configurer un succès de résolution de Captcha

  • Cliquez sur Set Up CAPTCHA Solving Success pour passer à la dernière étape

  • Entrez le texte affiché dans la boîte à images

  • Cliquez sur Soumettre la réponse CAPTCHA et terminez la configuration

Le Image Captcha a maintenant été résolu. L'étape Résoudre CAPTCHA sera ajoutée au flux de travail et vous pouvez également modifier les paramètres sous le flux de travail.

Avez-vous trouvé la réponse à votre question ?