undefined

Extraire une liste d'URL

Thursday, June 10, 2021 9:43 AM

Dans certains cas, vous avez peut-être une liste d'URL de structure similaire (comme un lot d'URL de produits) et vous souhaitez en extraire directement les données. Dans ce tutoriel, nous présenterons un moyen simple et puissant pour extraire des données de plusieurs pages Web en utilisant une liste d'URL.

 

Quand devriez-vous envisager de scraper les données en utilisant une liste d'URL ?

Voici certains cas dans lesquels vous pouvez créer la tâche avec une liste d'URL à extraire.

  1. Toutes les URL doivent être dans le même domaine, et partagent la même structure de page (le plus important).
    • Exemple : j'ai une liste d'URL de produits et je souhaite l'utiliser pour configurer une tâche pour récupérer régulièrement les données de prix mises à jour.
  2. Certains sites Web utilisent le défilement infinitif/charge plus pour charger le contenu. Si vous voulez collecter des données en cliquant sur chaque nom de produit ou quelque chose de similaire pour gratter les détails de prosuits, vous devrez alors diviser la tâche en deux. Une tâche pour charger la page et extraire les URL, et l'autre pour saisir une liste d'URL extraites pour gratter les détails.

    • Exemple : la page de résultats de recherche de Zara utilise le défilement infinitif pour charger de nouveaux éléments continuellement. Si les données dont vous avez besoin se trouvent sur la page de l'article, vous devez d'abord définir le nombre de défilement et collecter suffisamment d'URL de produits pour la tâche suivante.
  3. Le site Web applique AJAX (Régler AJAX) pour charger du nouveau contenu, ce qui signifie qu'après avoir cliqué sur la première page de produit, le système ne parvient pas à revenir automatiquement à la page de liste (et à y cliquer sur la deuxième page de produit). Nous devrons donc d'abord extraire les URL de la page de détail, puis gratter les données souhaitées avec la liste des URL (vidéo tutoriel).

       5.Certains sites Web préfèrent charger les pages assez lentement lors de la pagination, ce qui peut bloquer notre grattage de données. Il vaut donc mieux parcourir directement les URL des pages pour éviter ce problème.

Tips!

Comment puis-je savoir si les pages ont la même structure ?

Si vous récupérez des articles d'actualité sur un site Web spécifique, la page de l'article partagera probablement la même structure de page, comme ceci:

liste url

Un autre exemple provient de Google Maps, dont chaque page d'entreprise a une structure similaire :

 

business page

 

Pour extraire à partir d'une liste d'URL, nous allons simplement configurer une boucle basée sur cette liste, puis ajouter une action d'extraction de données juste après pour obtenir les données dont nous avons besoin. Octoparse chargera les URL une par une et récupérera les données de chaque page.

En créant un mode de boucle "Liste d'URL", Octoparse n'a pas besoin de faire face à des étapes supplémentaires telles que "Cliquez pour paginer" ou "Cliquez sur l'élément" pour accéder à la page de détail. Par conséquent, la vitesse d'extraction sera plus rapide, en particulier pour Extraction dans le Cloud. Lorsqu'une tâche utilisant "Listes d'URL" est exécutée dans le cloud, elle sera divisée par défaut en plusieurs sous-tâches qui sont ensuite configurées pour s'exécuter simultanément sur plusieurs serveurs cloud.

Le mode "Liste d'URL" est très efficace. Vous pouvez ajouter des pages Web spécifique à la liste comme vous voulez, peu importe qu'il s'agisse de pages consécutives ou non, tant qu'elles partagent la même structure. Octoparse récupérera les données de chaque URL de la liste et aucune page ne sera omise.

 

Tips!

1. Puis-je utiliser des URL qui ne partagent pas la même strcture ?

Malheureusement, seules les URL d'une même structure peuvent être extraites à l'aide de la "Liste des URL". Pour s'assurer que les données sont extraites de manière cohérente et précise, il est donc nécessaire de s'assurer que ces pages partagent la même mise en page.

Pour savoir plus sur le mode "Liste d'URL", vous pouvez consulter l'article:Élément de boucle

2. Y a-t-il une limite pour le nombre d'URL que je peux ajouter à la fois ?

Nous vous suggérons de ne pas ajouter plus de 10 000 URL si vous copiez et collez directement les URL dans Octoparse. Cependant, utilisez la fonctionnalité "SaisiURL par lots", vous pouvez saisir jusqu'à 1 million d'URL.

3. Octoparse peut-il collecter et ajouter automatiquement les URL ?

Octoparse peut saisir des URL à partir d'une autre tâche. Vous pouvez utiliser une tâche pour extraire les URL , puis configurer une autre tâche pour utiliser ces URL.

API avancée d'Octoparse permet de modifier la liste des URL sans même accéder à l'application.

 

Pour extraire des données d'une liste d'URL, le processus d'extraction peut généralement être divisé en 3 étapes simples :

 

 

Dans Octoparse, il y a deux manières pour créer une boucle "Liste d'URL".

1) Démarrer une nouvelle tâche avec une liste d'URL

2) Créer une boucle "Liste d'URL" dans Workflow Designer

 

 

1) Démarrer une nouvelle tâche avec une liste d'URL

 

1. Sélectionnez "+Nouveau" et cliquez sur "Mode avancé" pour créer une nouvelle tâche, ou entrez l'URL de page Web cible pour commencer

advanced mode

 

2. Collez la liste d'URL dans la zone de texte et cliquez sur "Enregistrer l'URL"

enregistrer

Tips!

Après avoir saisi les URL et cliqué sur "Enregistrer", Octoparse supprimera automatiquement les doublons et conservera uniquement les URL valides.:

 

pagination

 

 

 

 

2) Créer une boucle "Liste d'URL" dans Workflow Designer

1. Ajouter  "loop item" dans le workflow

loop item

 

 

2. Accédez dans "Loop mode" et sélectionnez icon et passez "Liste d'URL"

loop mode

 

 

3. Ajouter "Open Page" et Load URLs in the loop. N'oubliez pas de cliquer sur "OK" pour enregistrer les paramètres.

open page

 

  

4. Paramétrer "Attendre avant l'exécution"

Octoparse chargera chaque URL de la liste avant de commencer à extraire les données. Mais si la page n'est pas chargée complètement, Octoparse pourrait avoir des problèmes pour récupérer les données ou exécuter l'étape suivante du workflow. Dans le cas où Octoparse démarre l'extraction avant que la page ne se charge complètement, nous devons configurer "Attendre avant l'exécution"(2 secondes sont recommandées).

 

chargement

Une fois les URL enregistrées, la première page s'ouvrira automatiquement et vous pourrez sélectionner les données à extraire sur la page. Extraire l'élément text/URL/image/HTML/attribute

 

Tips!

 

1. Si le grattage s'est arrêté juste après le démarrage de l'extraction, nous pouvons essayer d'allonger le délai d'attente plus long pour l'étape "Ouvrir la page Web", afin que le système attende plus longtemps avant que la page Web soit complètement chargée.

option

2. Si vous voulez que les données exportées soient alignées avec la liste d'URL que vous avez saisie, vous pouvez ajouter l'URL de la page actuelle comme ci-dessous :

page url

 

Si vous avez des questions, n'hésitez pas à laisser votre message.

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter