Accélérer le scraping en utilisant une liste d'URL
Wednesday, August 31, 2022 3:30 PMAvec le mode de loop "List of URLs", Octoparse n'a pas besoin de gérer certaines étapes comme "Cliquer pour paginer" ou "Cliquer sur l'élément" pour entrer dans la page de l'élément. Par conséquent, la vitesse d'extraction sera plus rapide, en particulier pour l'extraction de Cloud. Lorsqu'une tâche construite à l'aide de "Listes d'URL" est configurée pour s'exécuter dans le Cloud, la tâche est divisée en sous-tâches qui sont ensuite configurées pour s'exécuter simultanément sur différents serveurs du Cloud.
1.Accélérer la pagination en utilisant une liste d'URL
2.Accélérer le scraping des pages de détail en utilisant une liste d'URLs
1.Accélérer la pagination en utilisant une liste d'URL
Si votre tâche de scraping doit extraire des données de milliers de pages multiples, vous pouvez utiliser la liste des URL à scrapper plutôt que de "cliquer pour paginer" une par une. Cela peut vous aider à exécuter votre tâche de manière plus efficace.
Prenons l'exemple des URL ci-dessous :
- https://pubmed.ncbi.nlm.nih.gov/?term=pain%20antioxidant&page=1
- https://pubmed.ncbi.nlm.nih.gov/?term=pain%20antioxidant&page=2
- https://pubmed.ncbi.nlm.nih.gov/?term=pain%20antioxidant&page=3
- https://pubmed.ncbi.nlm.nih.gov/?term=pain%20antioxidant&page=4
Ce site Web comporte au total 849 pages. En observant les URL de chaque page, vous pouvez constater qu'elles partagent la même structure. Dans ce cas, vous pouvez utiliser "Batch Generate" pour générer automatiquement les URL de chaque page.
Voici les étapes que vous pouvez suivre :
- Cliquez sur New+ dans le menu latéral et sélectionnez Custom Task
- Sélectionnez Batch generate (1) et entrez l'URL de la première page dans la barre de format de l'URL(2), puis sélectionnez Add Parameter(3)
- Type de paramètre : Nombre
- Valeur initiale : 1
- Chaque fois : +1
- Répéter : 849
- Cliquez sur Confirmer
N'oubliez pas de supprimer le chiffre "1" après la page. Le résultat après la génération de l'URL sera le suivant :
2.Accélérer le scraping des pages de détail en utilisant une liste d'URLs
Lorsque vous devez cliquer sur les éléments de la liste et extraire les pages détaillées correspondantes, il faut un certain temps pour cliquer sur tous les éléments un par un. Dans ce cas, il est sage de commencer par extraire les URL de tous les éléments de la liste. Une fois que vous avez obtenu toutes les URL des pages détaillées, vous pouvez commencer une nouvelle tâche en saisissant toutes les URL scrappées de la tâche précédente.
Voici un tutoriel sur la façon d'extraire les URL des éléments : Extraire une liste d'URL