undefined

Accélérer le scraping en utilisant une liste d'URL

Wednesday, August 31, 2022 3:30 PM

Avec le mode de loop "List of URLs", Octoparse n'a pas besoin de gérer certaines étapes comme "Cliquer pour paginer" ou "Cliquer sur l'élément" pour entrer dans la page de l'élément. Par conséquent, la vitesse d'extraction sera plus rapide, en particulier pour l'extraction de Cloud. Lorsqu'une tâche construite à l'aide de "Listes d'URL" est configurée pour s'exécuter dans le Cloud, la tâche est divisée en sous-tâches qui sont ensuite configurées pour s'exécuter simultanément sur différents serveurs du Cloud. 

 

1.Accélérer la pagination en utilisant une liste d'URL

2.Accélérer le scraping des pages de détail en utilisant une liste d'URLs

 

 

 

 

1.Accélérer la pagination en utilisant une liste d'URL

 

Si votre tâche de scraping doit extraire des données de milliers de pages multiples, vous pouvez utiliser la liste des URL à scrapper plutôt que de "cliquer pour paginer" une par une. Cela peut vous aider à exécuter votre tâche de manière plus efficace.

Prenons l'exemple des URL ci-dessous :

 

Ce site Web comporte au total 849 pages. En observant les URL de chaque page, vous pouvez constater qu'elles partagent la même structure. Dans ce cas, vous pouvez utiliser "Batch Generate" pour générer automatiquement les URL de chaque page.

 

Voici les étapes que vous pouvez suivre :

 

  • Cliquez sur New+ dans le menu latéral et sélectionnez Custom Task

 custom task

 

 

  • Sélectionnez Batch generate (1) et entrez l'URL de la première page dans la barre de format de l'URL(2), puis sélectionnez Add Parameter(3)

 

batch generate

 

  • Type de paramètre : Nombre
  • Valeur initiale : 1
  • Chaque fois : +1
  • Répéter : 849
  • Cliquez sur Confirmer

configuration

 

 

 

 

 

N'oubliez pas de supprimer le chiffre "1" après la page. Le résultat après la génération de l'URL sera le suivant :

 

résultat

 

 

2.Accélérer le scraping des pages de détail en utilisant une liste d'URLs

 

Lorsque vous devez cliquer sur les éléments de la liste et extraire les pages détaillées correspondantes, il faut un certain temps pour cliquer sur tous les éléments un par un. Dans ce cas, il est sage de commencer par extraire les URL de tous les éléments de la liste. Une fois que vous avez obtenu toutes les URL des pages détaillées, vous pouvez commencer une nouvelle tâche en saisissant toutes les URL scrappées de la tâche précédente.

 

 

 Voici un tutoriel sur la façon d'extraire les URL des éléments : Extraire une liste d'URL

 

 

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter