Options anti-blocage

Ce tutoriel vous aide à résoudre des Problèmes du blocage des sites web.

Mis à jour il y a plus d’une semaine

Certains sites Web sont très sensibles au grattage Web et prennent des mesures anti-grattage telles que le blocage IP pour éviter toute activité de grattage possible.

Dans ce tutoriel, nous allons vous montrer comment configurer dans Octoparse des mesures Anti-Blocage pour réduire les risques d'être bloqué dans une tâche .

Utiliser des proxys IP (uniquement pour l'extraction locale)

Vous pouvez configurer des proxys manuellement dans Octoparse si vous souhaitez accéder au site Web avec des proxys externes (par exemple d'un pays spécifique) ou si vous préférez utiliser vos propres proxys pour protéger votre IP locale.

  • Cochez la case "Utiliser des proxys IP" et cliquez sur "Paramètres".

  • Entrez les proxys et le délai d'attente pour changer de proxy.

  • Cliquez sur "OK" pour enregistrer la modification.

Lorsque la tâche s'exécute localement, Octoparse basculera automatiquement les proxy comme vous le définissez.

Navigateur à rotation automatique (Agent utilisateur)

Votre navigateur enverra un soi-disant agent utilisateur pour toute page Web que vous visitez. Il s'agit d'une chaîne de signes qui indique au site Web cible quel appareil vous utilisez pour accéder à la page. Lorsque le même agent utilisateur est utilisé pour explorer un site Web de manière très cohérente, il risque d'être détecté comme une activité de robot d'exploration. Vous pouvez donc réduire le risque d'être bloqué avec cette fonction.

Pour configurer le navigateur à rotation automatique:

  • "Cochez la case "Navigateur à rotation automatique (Agent utilisateur)".

  • Cliquez sur "Paramètres" pour sélectionner les agents utilisateurs.

Tous les UA ne sont pas disponibles pour tous les sites Web, vous devrez donc effectuer quelques tests. Si vous souhaitez qu'Octoparse visite le site Web "via PC" lors de l'exploration du site, vous devez cocher la case "Sélectionner tout" et décocher toutes les cases de l'agent utilisateur mobile, telles que "Firefox pour mobile". Si vous souhaitez qu'Octoparse accède au site Web "via un téléphone mobile ", vous devez uniquement cocher la case du proxy mobile.

  • Cliquez sur OK pour enregistrer la modification.

  • Sélectionnez la fréquence à laquelle vous souhaitez changer d'agent utilisateur ou cochez la case "Changer d'IP simultanément" lorsque la tâche s'exécute avec des proxys IP.

Lorsque la tâche s'exécute localement ou dans le cloud, Octoparse changera automatiquement l'agent utilisateur en fonction de vos paramètres.

Effacer automatiquement les cookies

Lorsque le même cookie est utilisé pour explorer un site Web de manière très cohérente, il y a de grande chance qu'il sera détecté comme une activité de robot d'exploration. Avec cette fonctionnalité, Octoparse effacera les cookies de temps en temps, prétendant être la première fois que vous visitez une page Web.

  • Cochez la case "Effacer automatiquement les cookies"

  • Sélectionnez la fréquence d'effacement des cookies ou cochez la case "Effacer les cookies lorsque l'adresse IP changent".

Lorsque la tâche s'exécute localement ou dans le Cloud, Octoparse effacera automatiquement les cookies comme vous le définissez

Après avoir configuré les mesures Anti-Blocage dans Octoparse, vous pouvez cliquer sur "Enregistrer" pour enregistrer les paramètres.

*Veuillez noter que les paramètres anti-blocage ne passent toujours pas à 100% les mécanismes de blocage d'un site Web. Le meilleur moyen est de bien traiter le site Web et de contrôler la vitesse d'accès.

Avez-vous trouvé la réponse à votre question ?