undefined

Pourquoi Octoparse n'obtient-elle aucune donnée avec "Cloud Extraction" mais fonctionne bien avec "Local Extraction" ?

Monday, February 07, 2022 4:37 PM

Il arrive parfois que l'exécution dans le Cloud ne renvoie aucune donnée avec une tâche qui s'exécute parfaitement dans le local. Dans cet article, nous allons vous montrer quelques astuces pour résoudre ce problème.

Voici quelques-unes des principales raisons pour lesquelles aucune donnée n'est renvoyée :

 

 

1) Le site Web cible ne se charge pas complètement ou les données à extraire ne sont pas chargées.
 
Le temps de chargement du site Web dépend de l'état de l'Internet et du site Web lui-même. Lorsque vous testez le site Web sur un ordinateur local, le temps de chargement peut être plus court que dans le Cloud.

 

Donc, si vous constatez qu'aucune donnée n'est extraite, essayez d'augmenter le délai d'attente pour l'action "Go to Web Page".
go to web page
timeout

Si un délai plus long ne fonctionne pas, vous pouvez essayer de changer le navigateur UA dans les paramètres de la tâche pour Chrome 91, ce qui aide à charger la page Web

  • Cliquez sur Paramètres des tâches dans le coin supérieur droit de l'écran.

 

 

  • Sélectionnez Chrome 91.0 pour Linux

 

 

 

2) Les adresses IP en nuage ne peuvent pas accéder au site Web en raison de la fréquence élevée de raclage.

 

De nombreux sites Web appliquent des techniques anti-scraping pour éviter d'être scannés. Ils peuvent limiter l'accès des IP pendant un certain temps et bloquer toute IP qui dépasse cette limite.

 

Certains sites web peuvent même bloquer toutes les IP d'un même lieu, par exemple, un site web japonais ne peut être ouvert au Canada.

 

Les IP blacklistées en raison d'une extraction trop fréquente peuvent être résolues en ajoutant un temps d'attente pour ralentir l'extraction, mais la restriction à l'emplacement de l'IP reste actuellement un problème car nous n'avons que des IP des États-Unis, du Japon, de l'Allemagne et du Royaume-Uni.

 

3) Un CAPTCHA doit être résolu avant d'accéder à la page Web.

 

Le CAPTCHA est également une méthode fréquemment utilisée par un site web pour lutter contre le scrapping. Il peut reconnaître qu'il s'agit de l'IP d'un serveur Cloud et non d'une IP résidentielle qui accède aux pages. Dans de nombreux cas, le CAPTCHA s'affiche directement lorsque nous ouvrons la première page du site Web, ce qui interrompt tout le processus de scraping. Il est difficile de résoudre le CAPTCHA dans le nuage. Si vous rencontrez cette erreur, veuillez nous contacter et nous essaierons de trouver une solution de contournement pour vous.

 

4) La connexion au site Web cible échoue
Si vous mettez en place des étapes de connexion ou enregistrez des cookies dans une tâche de scrapping d'un site Web, l'extraction locale fonctionnera parfaitement, mais l'extraction dans le nuage peut échouer en raison de la rotation de différentes IP pendant l'exécution.

 

De nombreux sites Web demandent une vérification avant de se connecter. Une telle vérification, comme CAPTCHA, n'est pas résoluble dans l'extraction en nuage.

 

Le cookie enregistré a toujours une durée de validité et ne fonctionnera plus lorsqu'il aura expiré. Pour résoudre ce problème, vous devrez passer par les étapes de connexion une fois de plus afin d'obtenir et d'enregistrer les cookies mis à jour (voir comment enregistrer un cookie).

 

5) Le design HTML du site Web est différent lorsqu'il est ouvert dans le nuage.

 

Pour Octoparse, l'extraction des données Web consiste en fait à récupérer le contenu du code source/fichier HTML. Il doit reconnaître le code HTML pour savoir quelles données extraire. Il arrive que le design du site Web soit différent dans le nuage, ce qui entraîne l'échec de l'extraction.

 

Par exemple, lorsque vous ouvrez Sephora.com avec une IP chinoise, la page est redirigée vers Sephora.cn. La conception des sites pour différents emplacements est totalement différente. Ainsi, lorsque vous utilisez l'extraction Octopare Cloud, assurez-vous que vous extrayez un site qui ne sera pas redirigé en fonction des emplacements IP.

 

Même si le site n'est pas redirigé, le code source peut également être modifié un peu dans un navigateur différent sous différentes conditions de réseau.
Comment puis-je savoir ce qui cause l'échec de l'extraction Cloud ?

 

Le processus d'extraction cloud d'Octoparse n'affiche pas comme l'extraction locale. Il existe un moyen simple de tester ce qui se passe dans le nuage : extraire le code HTML externe de la page Web entière.

 

Vous pouvez suivre les étapes suivantes pour extraire le code HTML :

 

Étape 1. Après avoir ouvert la page du site, cliquez n'importe où pour déclencher les "Tips".

 

step 1

 

Étape 2. Cliquez sur la balise HTML en bas des " Tips ", puis extrayez le code HTML externe.

 

 

Étape 3. Exécutez la tâche dans le Cloud et obtenez le code HTML.

 

Étape 4. Copiez les données extraites dans un fichier texte et enregistrez-les en tant que fichier HTML.

 

Étape 5. Ouvrez le fichier HTML avec Chrome ou Firefox pour voir ce que la page Web charge dans le serveur nuage.

 

 

Étape 6. Vérifiez la page Web pour trouver la raison de l'échec de l'extraction.

 

Par exemple:
Si la page affiche "Access Denied", cela signifie que l'IP du cloud est bloquée.
Si la page a la même apparence, vous pouvez inspecter soigneusement le code HTML afin d'obtenir le XPath pour l'extraction.

 

Si vous n'avez aucune idée de ce qui se passe avec votre tâche, n'hésitez pas à laisser votre message.

 

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter