undefined

Comment puis-je accélérer les extractions dans le Cloud?(Version 8)

Thursday, June 24, 2021 5:33 PM

Octoparse offre une plateforme Cloud avec de nombreux serveurs Cloud pour que vous puissiez exécuter vos tâches 24h/24 et 7j/7 et avec une vitesse jusqu'à 6 à 20 fois plus rapide que l'extraction locale. Mais parfois, la vitesse du Cloud n'est pas assez satisfaisante. Dans ce tutoriel, nous allons expliquer les méthodes pour accélérer les extractions dans le Cloud et comment réviser une tâche pour la faire s'exécuter plus rapidement.

La plateforme Cloud d'Octoparse accélère les extractions par diviser une tâche en plusieurs sous-tâches et les exécuter avec plusieurs serveurs Cloud. Une sous-tâche a besoin d'un serveur Cloud pour s'exécuter, donc la vitesse d'extraction dans le cloud dépend du nombre de serveurs Cloud de votre compte.

Le plan standard d'Octoparse comprend 6 serveurs Cloud tandis que le plan professionnel en compte 20. Vous pouvez facilement passer à un plan supérieur pour accélérer l'exécution de vos tâches. Mais si vous ne voulez pas changer votre plan, c'est aussi possible d'accélérer l'exécution de votre tâche par la modifier.


Quels types de tâches peuvent être fractionnés ?

Lorsque vous essayez de créer un éléments de boucle de n'importe quel type dans Octoparse, Octoparse définira automatiquement un mode de boucle en fonction des éléments sélectionnés et de la manière dont ils interagissent avec la page Web.

mceclip0.png

 

Pour être plus précis, il y a trois types de modes de boucle qui sont séparables dans Octoparse.

  • Liste d'URL
  • Liste de texte
  • Liste fixe

1. Liste d'URL

Lorsque vous démarrez une tâche d'extraction à l'aide de plusieurs URL, vous aurez besoin d'une boucle d'URL. Cette fonctionnalité est particulièrement pratique lorsque les données souhaitées sont séparties sur plusieurs pages Web partageant une même structure de page. Vous pouvez facilement configurer une boucle d'URL pour parcourir chacune de ces pages. Octoparse chargera les URL une par une et exécutera le même ensemble d'actions pour exécuter chaque page. 

Une boucle d'URL est fractionnable. Par conséquent, lorsqu'une tâche créée avec une liste d'URL est configurée pour s'exécuter dans le cloud, Octoparse la divisera en plusieurs sous-tâches pour qu'elle s'exécute plus rapidement et plus efficacement.

Pour savoir plus sur la liste d'URL, veuillez vous référer à Entrer URL par lot(version 8).

 

mceclip2.png

 

2. Liste de texte

Une boucle de liste de texte fonctionne de manière similaire à celle de la boucle de liste d'URL, mais au lieu de parcourir une liste d'URL, elle parcours une liste de valeurs de texte prédéfinies.

Pour savoir plus sur la boucle de liste de texte, veuillez vous référer à Saisir du texte.

mceclip3.png

 

3. Liste fixe

De nombreuses pages Web, telles que les sites Web d'e-commerce, organisent souvent leur contenu des pages Web (c'est-à-dire des informations sur les produits) sous la forme d'une collection d'éléments récurrents avec un modèle HTML partagé.

Lors de grattage des éléments tels que les titres de produits, Octoparse détecterait automatiquement tous les éléments partageant le même modèle HTML et générerait une collection de XPath(s) pour les localiser.

mceclip4.png

 

Après avoir connu ces 3 types de modes de boucle fractionnables, passons maintenant à 2 autres modes de boucle non fractionnables : la boucle d'élément unique et la boucle de liste variable. Comme ces deux modes de boucle n'impliquent qu'un seul XPath, ils ne peuvent pas être divisés en sous-tâches pour accélérer l'extraction.

 

Comment rendre ma tâche fractionnable?

1. Pour faire une tâche avec une liste variable cliquer en boucle sur une liste d'éléments, vous pouvez

2. Pour une tâche extrayant plusieurs pages, nous pouvons utiliser les URL de chaque page pour créer le workflow :

Accélérer le scraping en utilisant la liste d'URL

 

 

Si vous rencontrez des problèmes avec l'extraction Cloud, n'hésitez pas à laisser votre message.

 

Auteur: Lesley

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter