Toutes les collections
Utiliser Octoparse
Créer une tâche avec une liste d'URLs
Créer une tâche avec une liste d'URLs
Mis à jour il y a plus d’une semaine

Dans certains cas, vous voulez extraire des données depuis une liste d'URLs qui sont d'une structure similaire (comme un lot d'URL de produits). Dans ce tutoriel, nous allons vous présenter un moyen simple d'extraire des données de plusieurs pages Web en utilisant une liste d'URL.


Dans quels cas vous pensez à utiliser une liste d'URL pour faire du scraping ?

Voilà des scénarios où vous souhaitez commencer la configuration d'une tâche avec une liste d'URLs.

1.Toutes les URLs sont sous le même domaine, avec la même structure de page web (le plus important).

  • Exemple : J'ai une liste d'URL de produits, et je veux commencer une tâche avec une liste d'URLs directement pour extraire des données de prix mises à jour régulièrement.

2. Certains sites Web utilisent le défilement infini ou le bouton de charger plus pour charger le contenu. Si vous souhaitez collecter des données en cliquant sur chaque URL pour extraire des détails, vous devrez diviser la tâche en deux. La première consiste à charger la page et à extraire les URL, et la seconde à utiliser ces URL extraites pour récolter les informations détaillées.

  • Exemple : La page de résultats de recherche de Zara utilise le défilement infini pour continuer à charger de nouveaux éléments. Si les données dont vous avez besoin se trouvent sur la page de détail des articles, vous devez définir des temps de défilement et collecter suffisamment d'URLs de produits pour la tâche suivante.

3. Le site Web applique AJAX pour charger le nouveau contenu, ce qui signifie qu'après avoir cliqué sur la première page de produit, le système ne parvient pas à revenir automatiquement à la page de liste (et à cliquer sur le deuxième produit à partir de là). Nous devrons d'abord extraire les URL des pages de détails, puis récupérer les données souhaitées à l'aide de la liste d'URL.

4. Certains sites Web ont généralement tendance à charger les pages assez lentement lors de la pagination, ce qui peut affecter l'extraction de données des tâches programmées. Il est donc préférable de passer directement par les URL des pages pour éviter ce problème.

Comment puis-je savoir si les pages ont la même structure ou pas ?

Si vous récupérez des articles d'actualité d'un site Web, il est fort probable que les pages des articles partagent la même structure de page, par exemple :

Un autre exemple est celui de Google maps. Chaque page d'entreprise est comme ceci :

Pour récupérer une liste d'URLs, nous allons simplement mettre en place une boucle de toutes les URLs que nous devons récupérer puis ajouter une action d'extraction de données juste après pour récupérer les données dont nous avons besoin. Octoparse chargera les URL une par une et extraira les données de chaque page.

En créant un mode de boucle "Liste d'URLs", Octoparse n'a pas besoin de gérer des étapes supplémentaires comme "Cliquez pour paginer" ou "Cliquez sur l'élément" pour entrer dans la page de l'élément. En conséquence, la vitesse d'extraction sera plus rapide, en particulier pour l'exécution Cloud. Vérifier Accélérer le scraping en utilisant la liste d'URL.

Pour extraire des données d'une liste d'URL, le processus d'extraction peut généralement en 3 étapes simples :

1- Créer une boucle de liste d'URL

2- Sélectionner les données à extraire pour chaque URL

3- Lancer la tâche et récupérer les données désirées

Vous aurez peut-être besoin des liens ci-dessous pour suivre le processus :

Dans Octoparse, il y a deux façons de créer une boucle "Liste d'URLs". Vous pouvez choisir l'une ou l'autre méthode qui convient à votre cas d'utilisation. Voir ci-dessous :


Méthode 1 : Créer une nouvelle tâche avec une liste d'URLs

  • Sélectionnez "+Nouveau" et cliquez sur "Tâche personnalisée" pour créer une nouvelle tâche.

  • Ajoutez la liste des URL dans la zone de texte et cliquez sur "Sauvegarder".

  • Après avoir cliqué sur "Sauvegarder", l'action de "URL en boucle " (qui parcourent en boucle chaque URL de la liste) sera automatiquement créées dans le flux de travail. Si vous cliquez sur le "URL en boucle", vous pouvez voir que les URL que vous avez saisies ont été ajoutées à l'"élément de boucle".

  • Une fois les URL enregistrés, la première page s'ouvre automatiquement et vous pouvez sélectionner les données de la page à extraire.


2. Créer une boucle "Liste d'URLs" dans un flux de travail

Cela s'applique au scénario dans lequel vous avez commencé la configuration d'une tâche et vous pouvez directement ajouter une boucle pour les URLs dans la tâche.

  • Ajouter un "élément de boucle" dans le flux de travail

  • Allez dans " Mode boucle " et sélectionnez " Liste d'URL ". Cliquez sur le bouton d'édition pour coller la liste d'URLs. N'oubliez pas de cliquer sur "Appliquer" pour enregistrer les paramètres.

  • Ajoutez une "Page ouverte" sous l'"Élément de la boucle", puis sélectionnez "Charger les URL dans la boucle" et "Appliquer" pour confirmer.


Conseil : si le scraping s'arrête juste après le lancement de l'extraction, nous pouvons essayer d'ajouter un délai d'attente plus long pour l'étape d'ouverture de la page Web, afin que le système attende plus longtemps que la page Web soit entièrement chargée.

3. Extraire les données de la page

Après l'enregistrement des URL, la première page s'ouvre automatiquement, et vous pouvez sélectionner les données de la page à extraire.


Conseils :

1. Parfois, si Octoparse agit trop vite, il est probable que les pages ne soient pas complètement chargées avant l'exécution de l'étape d'extraction des données, ce qui peut entraîner l'extraction de données incomplètes ou inexistantes. Pour éviter cela, on peut mettre en place une "Attente avant exécution".

Cliquez sur les paramètres "Options" de l'étape "Extraire les données" et fixez un temps d'attente avant l'exécution de l'action (2 à 3 secondes suffisent généralement)

2. Si vous voulez que les données exportées correspondent à la liste d'URL originale que vous avez saisie, vous pouvez ajouter l'URL de la page actuelle ici :

Après le processus que nous avons mentionné ci-dessus, lorsque vous exécutez la tâche, vous constaterez qu'après avoir terminé le scraping d'un site Web, Octoparse passera automatiquement à la page suivante.

Avez-vous trouvé la réponse à votre question ?