Résoudre le Captcha
Friday, July 15, 2022 10:14 AMCAPTCHA est une technique anti-scraping très courante appliquée par de nombreux sites web sous forme différente.
Pour vous aider à améliorer l'efficacité du scraping, Octoprase peut actuellement gérer automatiquement les trois types de Captcha : hCaptcha, ReCaptcha V2, et ImageCaptcha.
hCaptcha et ReCaptcha V2 peuvent être résolus de manière similaire, alors qu'il est plus compliqué de mettre en place une résolution pour traiter ImageCaptcha.
Suivez ce tutoriel, et vous serez capable d'avoir une compréhension de base de chaque Captcha et de les traiter avec Octoparse.
1. C'est quoi hCaptcha & ReCaptcha V2 ?
hCaptcha associe généralement :
Bouton "I am human" avec le logo de hCaptcha
et des questions simples (en images) qui sont faciles pour les humains et difficiles pour les machines :
ReCaptcha V2
La plupart des ReCaptcha V2 comportent généralement "I'm not a robot" ; cependant, il arrive qu'ils contiennent des questions simples semblables à celles du hCaptcha.
2. Comment résoudre hCaptcha et Recaptcha V2
- Cliquez sur
dans le workflow
- Sélectionnez "Solve CAPTCHA"
- Cliquez sur la boîte Solve CAPTCHA
- Sélectionnez hCaptcha/ReCaptcha V2 comme type de CAPTCHA
Remarque : hCaptcha et ReCaptcha ne seront pas résolus automatiquement jusqu'à une exécution réelle des données. Ainsi, vous devez activer le mode de navigation et le résoudre manuellement pour procéder à la création de la tâche.
3. Qu'est-ce que l'Image Captcha ?
ImageCaptcha est la méthode originale de vérification des humains. Il peut utiliser des mots ou des phrases connus ou des combinaisons aléatoires de chiffres et de lettres. Certains ImageCaptcha incluent également des variations dans la capitalisation.
4. Résolution de l'image Captcha
A. Sélectionnez la zone de saisie et la zone d'image pour le Captcha
- Cliquez sur le champ de saisie du Captcha
- Sélectionnez Résoudre le Captcha dans le panneau Conseils
- Cliquez sur la boîte à images
- Cliquez sur le bouton Connexion/Soumettre/Confirmer pour continuer (parfois, il peut s'agir d'autres boutons, comme "Send" dans ce cas précis)
- Cliquez sur Confirmer dans le panneau des conseils
B. Configurer un échec de résolution de Captcha
Maintenant, nous devons entraîner Octoparse à résoudre le Captcha en mettant en place un échec de résolution.
- Cliquez sur le message d'erreur (dans ce cas - Des erreurs ont été détectées dans votre formulaire : Code de vérification invalide)
- Cliquez sur Confirmer l'erreur dans le panneau Conseils
C. Configurer un succès de résolution de Captcha
- Cliquez sur Set Up CAPTCHA Solving Success pour passer à la dernière étape
- Entrez le texte affiché dans la boîte à images
- Cliquez sur Soumettre la réponse CAPTCHA et terminez la configuration
Le Captcha d'image a maintenant été résolu. L'étape Résoudre CAPTCHA sera ajoutée au flux de travail et vous pouvez également modifier les paramètres sous le flux de travail.
Si vous rencontrez d'autres problèmes avec cette tâche, soumettez une demande ici.