undefined

Extraire une liste d'URL (version 8)

Thursday, June 10, 2021 9:43 AM

Il n'y a pas qu'une seule façon pour gratter une page Web, en fonction de la façon dont la page Web est structurée, il y a plusieurs approches que vous pouvez essayer.

Dans certains cas, vous avez peut-être une liste d'URL de structure similaire (comme un lot d'URL de produits) et vous souhaitez en extraire directement les données. Dans ce tutoriel, nous présenterons un moyen simple et puissant pour extraire des données de plusieurs pages Web en utilisant une liste d'URL.

 

Quand devriez-vous envisager de scraper les données en utilisant une liste d'URL ?

Voici certains cas dans lesquels vous pouvez configurer la tâche avec une liste d'URL à extraire.

  1. Toutes les URL doivent être dans le même domaine, et partagent la même structure de page (le plus important).
    • Exemple : j'ai une liste d'URL de produits et je souhaite l'utiliser pour configurer une tâche pour récupérer régulièrement les données de prix mises à jour.
  2. Certains sites Web utilisent le défilement infinitif/charge plus pour charger le contenu. Si vous devez collecter des données en cliquant sur chaque nom de produit ou quelque chose de similaire pour gratter les détails de prosuits, vous devrez alors diviser la tâche en deux. Une tâche pour charger la page et extraire les URL, et l'autre pour saisir une liste d'URL extraites pour gratter les détails.

    • Exemple : la page de résultats de recherche de Zara utilise le défilement infinitif pour charger de nouveaux éléments continuellement. Si les données dont vous avez besoin se trouvent sur la page de l'article, vous devez d'abord définir le nombre de défilement et collecter suffisamment d'URL de produits pour la tâche suivante.
  3. Le site Web applique AJAX (Régler AJAX) pour charger du nouveau contenu, ce qui signifie qu'après avoir cliqué sur la première page de produit, le système ne parvient pas à revenir automatiquement à la page de liste (et à y cliquer sur la deuxième page de produit). Nous devrons donc d'abord extraire les URL de la page de détail, puis gratter les données souhaitées avec la liste des URL (vidéo tutoriel1651561032561036.png).
  4. Certains sites Web préfèrent charger les pages assez lentement lors de la pagination, ce qui peut bloquer notre grattage de données. Il vaut donc mieux parcourir directement les URL des pages pour éviter ce problème.

Tips!

Comment puis-je savoir si les pages ont la même structure ?

Si vous récupérez des articles d'actualité sur un site Web spécifique, la page de l'article partagera probablement la même structure de page, comme ceci:

image514610362516.png

Un autre exemple provient de Google Maps, dont chaque page d'entreprise a une structure similaire :

514965156156.png

 

Pour extraire à partir d'une liste d'URL, nous allons simplement configurer une boucle basée sur cette liste, puis ajouter une action d'extraction de données juste après pour obtenir les données dont nous avons besoin. Octoparse chargera les URL une par une et récupérera les données de chaque page.

En créant un mode de boucle "Liste d'URL", Octoparse n'a pas besoin de faire face à des étapes supplémentaires telles que "Cliquez pour paginer" ou "Cliquez sur l'élément" pour accéder à la page de détail. Par conséquent, la vitesse d'extraction sera plus rapide, en particulier pour Extraction dans le Cloud. Lorsqu'une tâche utilisant "Listes d'URL" est exécutée dans le cloud, elle sera divisée par défaut en plusieurs sous-tâches qui sont ensuite configurées pour s'exécuter simultanément sur plusieurs serveurs cloud.

Le mode "Liste d'URL" est très efficace. Vous pouvez ajouter des pages Web spécifique à la liste comme vous voulez, peu importe qu'il s'agisse de pages consécutives ou non, tant qu'elles partagent la même structure. Octoparse récupérera les données de chaque URL de la liste et aucune page ne sera omise.

 

Tips!

1. Puis-je utiliser des URL qui ne partagent pas la même strcture ?

Malheureusement, seules les URL d'une même structure peuvent être extraites à l'aide de la "Liste des URL". Pour s'assurer que les données sont extraites de manière cohérente et précise, il est donc nécessaire de s'assurer que ces pages partagent la même mise en page.

Pour savoir plus sur le mode "Liste d'URL", vous pouvez consulter l'article:Élément de boucle

2. Y a-t-il une limite pour le nombre d'URL que je peux ajouter à la fois ?

Nous vous suggérons de ne pas ajouter plus de 10 000 URL si vous copiez et collez directement les URL dans Octoparse. Cependant, utilisez la fonctionnalité "SaisiURL par lots", vous pouvez saisir jusqu'à 1 million d'URL.

3. Octoparse peut-il collecter et ajouter automatiquement les URL ?

Octoparse peut saisir des URL à partir d'une autre tâche. Vous pouvez utiliser une tâche pour extraire les URL , puis configurer une autre tâche pour utiliser ces URL.

API avancée d'Octoparse permet de modifier la liste des URL sans même accéder à l'application.

 

Pour extraire des données d'une liste d'URL, le processus d'extraction peut généralement être divisé en 3 étapes simples :

 

Dans Octoparse, il y a deux manières pour créer une boucle "Liste d'URL".

1) Démarrer une nouvelle tâche avec une liste d'URL

2) Créer une boucle "Liste d'URL" dans Workflow Designer

 

 

1) Démarrer une nouvelle tâche avec une liste d'URL

 

1. Sélectionnez "+Nouveau" et cliquez sur "Mode avancé" pour créer une nouvelle tâche, ou entrez l'URL de page Web cible pour commencer

56165156156.png

 

2. Collez la liste d'URL dans la zone de texte et cliquez sur "Enregistrer l'URL"

15165156156.png

Tips!

Après avoir saisi les URL et cliqué sur "Enregistrer", Octoparse supprimera automatiquement les doublons et conservera uniquement les URL valides.:

mceclip0.png

 

Après avoir cliqué sur "Enregistrer l'URL", l'action "Élément de boucle" (qui parcourira chaque URL de la liste) est automatiquement créé dans le workflow.

51_914984981561561.png

Si vous survolez le curseur sur "élément de boucle" ou cliquez sur les paramètres de "élément de boucle", vous pouvez voir que les URL que vous avez saisies y ont été ajoutées.259_12_561265262.png

Lorsque plus d'une ligne d'URL est ajoutée, Octoparse entrera par défaut dans le mode de boucle "Liste d'URL"  pour démarrer une tâche.

 

3. Paramétrer "Attendre avant l'exécution"

Parfois, si Octoparse gratte un site web trop vite, il est possible que les pages ne soient pas complètement chargées avant l'exécution de chaque extraction des données, ce qui peut entraîner une extraction de données incomplètes. Pour éviter cette situation, nous pouvons configurer "Attendre avant exécution".

Cliquez sur les paramètres de "Aller à la page Web". Sous "Options avancées", définissez un temps d'attente avant l'exécution de l'action (généralement, 2 secondes seront suffisantes ).

 

16156161.png

 

 

2) Créer une boucle "Liste d'URL" dans Workflow Designer

1. Ajouter un "élément de boucle" dans le workflow

16515616156.png

 

 

2. Accédez dans "Mode boucle" et sélectionnez "Liste d'URL"

161561651.png

 

 

3. Cliquez sur 619561561561.png et saisissez/collez la liste d'URL. N'oubliez pas de cliquer sur "OK" pour enregistrer les paramètres.

16156156165.png

 

 

Veuillez noter que l'action "Aller à la page Web" est automatiquement générée dans le workflow. En cliquant sur "élément de boucle", vous pouvez trouver la liste d'URL y ajoutées

259_12_561265262.png

 

4. Paramétrer "Attendre avant l'exécution"

Octoparse chargera chaque URL de la liste avant de commencer à extraire les données. Mais si la page n'est pas chargée complètement, Octoparse pourrait avoir des problèmes pour récupérer les données ou exécuter l'étape suivante du workflow. Dans le cas où Octoparse démarre l'extraction avant que la page ne se charge complètement, nous devons configurer "Attendre avant l'exécution"(2 secondes sont recommandées).

16156161.png

 

Une fois les URL enregistrées, la première page s'ouvrira automatiquement et vous pourrez sélectionner les données à extraire sur la page. Extraire l'élément text/URL/image/HTML/attribute

 

Tips!

 

1. Si le grattage s'est arrêté juste après le démarrage de l'extraction, nous pouvons essayer d'allonger le délai d'attente plus long pour l'étape "Ouvrir la page Web", afin que le système attende plus longtemps avant que la page Web soit complètement chargée.

616156165.png

 

2. Si vous voulez que les données exportées soient alignées avec la liste d'URL que vous avez saisie, vous pouvez ajouter l'URL de la page actuelle comme ci-dessous :

651_6516156.png

 

Si vous avez des questions, n'hésitez pas à laisser votre message.

 

Auteur: Kara

Editeur: Vanny

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter