undefined

Pourquoi la tâche n'a-elle procuré aucune donnée sur le Cloud mais fonctionne bien lorsqu'elle est exécutée en local? (Version 8)

Tuesday, July 13, 2021 2:40 PM

Parfois, pour les tâches qui s'exécutent parfaitement localement, les opérations cloud peuvent ne renvoyer aucune donnée. Dans cet article, nous allons vous montrer quelques astuces pour résoudre ce problème.

 

Voici quelques raisons possibles pour lesquelles aucune donnée n'est renvoyée :

1) Le site Web cible ne se charge pas complètement ou les données à extraire ne sont pas chargées

Le temps de chargement du site Web dépend de l'état d'Internet et du site Web lui-même. Lorsque vous testez le site Web sur un ordinateur local, le temps de chargement peut être plus court que celui dans le Cloud.

Par conséquent, si vous constatez qu'aucune donnée n'a été extraite, essayez d'augmenter le délai d'attente de l'action "Aller à la page".

16515615165156.png

1615615614156.png

 

2) En raison de la fréquence de grattage élevée, les adresses IP du cloud sont limitées à l'accès au site Web

De nombreux sites Web appliquent des techniques anti-scraping pour éviter d'être grattés. Ils peuvent limiter le nombre de fois qu'une adresse IP peut y accéder dans une certaine durée de temps et bloquer les adresses IP qui dépasse la limite.

Certains sites Web peuvent même bloquer toutes les adresses IP d'une même position, par exemple, un site Web japonais peut limiter tous les accès de Canada.

Les IP qui sont sur la liste noire en raison d'une exploration trop fréquente peuvent y être effacées par rallonger le temps d'attente  pour ralentir la vitesse d'extraction. Mais la limitation de l'emplacement des IP est toujours un problème, car nous n'avons que les IP Amériques, Japonaises, Allemandes et Anglaises.

 

3) Un CAPTCHA doit être résolu avant d'accéder à la page Web

CAPTCHA est aussi une méthode anti-grattage couramment utilisé par les sites Web, qui peut distinguer les adresses IP du serveur cloud des IP résidentielle. Dans de nombreux cas, CAPTCHA s'affiche directement lorsque nous ouvrons la première page du site Web, ce qui interrompra tout le processus d'exploration. Il est difficile de résoudre le CAPTCHA dans le Cloud. Si vous rencontrez cette erreur, veuillez nous contacter et nous essaierons de trouver une solution pour vous.

 

4) Echouer à accéder au site Web cible

Si vous avez configuré des étapes de connexion ou enregistré des cookies dans une tâche pour scraper le site Web, l'extraction locale peut fonctionner parfaitement, mais l'extraction cloud peut échouer en raison de différentes rotations d'IP pendant l'exécution.

De nombreux sites Web demandent une vérification avant la connexion. Ce genre de vérification, comme CAPTCHA, ne peut pas être résolue dans l'extraction dans le cloud.

Généralement, les cookies enregistrés ont toujours une durée de validité et ne fonctionnera plus une fois expirés. Pour résoudre ce problème, vous devez effectuer à nouveau l'étape de connexion pour obtenir et enregistrer les cookies mis à jour. (Voir comment enregistrer les cookies)

 

5) La conception HTML est différente lorsque le site Web est ouvert dans le cloud

Pour Octoparse, l'extraction de données Web consiste en fait à extraire le contenu de code source/fichiers HTML. Il doit reconnaître le code HTML pour savoir quelles données à extraire. Il existe des cas où différentes conceptions de sites Web dans le cloud provoquent des échecs d'extraction.

Par exemple, lorsque vous accédez à Sephora.com avec une adresse IP de Chine, la page est redirigée vers Sephora.cn. La conception des sites pour différents emplacements est totalement différente. Ainsi, lorsque vous utilisez l'extraction Cloud d'Octopare, assurez-vous d'extraire un site qui ne sera pas redirigé en fonction des emplacements IP.

Même si le site Web serait pas redirigé, le code source peut aussi être légèrement modifié dans un navigateur différent et dans différentes conditions de réseau.

 

Comment puisse - je savoir la cause de l'échec de l'extraction cloud ?

Différencié de l'extraction locale, le processus d'extraction Cloud d'Octoparse n'est pas visible. Il y a une méthode simple pour tester ce qui se passe dans le Cloud : extraire le code HTML externe de l'ensemble de la page Web.

Vous pouvez suivre les étapes suivantes pour extraire le code HTML :

Étape 1. Après avoir ouvert la page  Web, cliquez n'importe où pour déclencher les "Tips"

156165165.png

 

Étape 2. Cliquez sur la balise HTML en bas des "Tips", puis extrayez le code HTML externe

4984984158149.png

 

Étape 3. Exécutez la tâche dans le Cloud et obtenez le code HTML

Étape 4. Copiez les données extraites sous forme de texte et enregistrez-les en tant que fichier HTML

Étape 5. Ouvrez le fichier HTML avec Chrome ou Firefox pour voir ce que la page du site Web se charge dans le Cloud

 

9849419962562.gif

 

Étape 6. Consultez la page Web pour découvrir la raison de l'échec de l'extraction.

 

Par exemple, si la page affiche "Accès refusé", cela signifie que l'IP cloud est bloquée. Si les pages se ressemblent, vous pouvez vérifier le code HTML pour obtenir le bon XPath à extraire.

 

Si vous n'avez toujours aucune idée de ce qui se passe dans votre tâche, n'hésitez pas à laisser votre message.

 

Auteur: Kara

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter