Toutes les collections
Utiliser Octoparse
Scraper des informations au sein d'un onglet
Scraper des informations au sein d'un onglet

Ce tutoriel va vous expliquer comment scraper des informations lorsqu'une page Web affiche beaucoup d'informations sur une seule page

Mis à jour il y a plus d’une semaine

Si vous avez déjà essayé de scraper sur un site de e-commerce, vous n'êtes peut-être pas étranger à la pratique de l'extraction de données à partir d'un onglet. Lorsqu'une page Web doit afficher beaucoup d'informations sur une seule page, elle utilise souvent des onglets pour mieux trier les informations, et ce n'est que lorsque vous cliquez sur un onglet spécifique que les informations respectives s'affichent.

Prenons l'exemple de cette page web :

Sur cette page Web, si vous souhaitez voir les données de l'onglet "Shipping and Returns" et de l'onglet "Size Guide", vous devez cliquer sur ces onglets respectivement.

Maintenant, si nous voulons extraire les données de l'onglet "Shipping and Returns", comment faire ? Il y a deux façons pour obtenir les données au sein d'un onglet.

1. Extraction de données au sein d'un onglet en cliquant d'abord sur l'onglet

Évidemment, vous pouvez demander à Octoparse de cliquer sur les onglets et d'extraire le contenu des onglets respectifs.

  • Cliquez sur l'onglet "Shipping and Returns"

  • Sélectionnez " Cliquer sur l'élément " dans le panneau Tips

  • Configurez AJAX. Vous pouvez ajuster le délai d'AJAX en fonction de la vitesse de votre réseau

  • Ensuite, cliquez sur les données que vous souhaitez capturer et sélectionnez "Extraire le texte de l'élément" dans le panneau Tips

Conseil :
Pour l'action Cliquer, veuillez vous assurer que l'option Ouvrir dans un nouvel onglet n'est pas cochée

2. Extraire des données au sein d'un onglet directement lorsque le contenu est trouvé dans le code source


Même si les informations sont classées dans différents onglets, le contenu de chaque onglet peut déjà exister dans le code source, que l'on clique sur un onglet ou non. Dans ce cas, nous pouvons d'abord faire afficher le contenu de l'onglet en mode "Browse", puis procéder à l'extraction des informations cibles directement. De cette façon, il n'est pas nécessaire d'ajouter aucune action de clic au flux de travail.

  • Pour vérifier si le contenu de l'onglet est inclus dans le code source, chargez la page Web dans votre navigateur de tous les jours et appuyez sur F12 sur le clavier

  • Inspectez le code source et voyez si le contenu cible s'y trouve. Pour cette page Web d'exemple, nous pouvons voir que même si nous n'avons pas cliqué sur l'onglet "Shipping and Returns" nous pouvons trouver les données correspondantes dans le code source. Nous savons donc qu'il est possible d'extraire le contenu de l'onglet directement sans avoir à cliquer sur l'onglet

  • Maintenant, retournez dans Octoparse, basculez le bouton

    en haut à droite du navigateur intégré et passez en mode "Browse"

  • Cliquez sur l'onglet "Shipping and Returns" pour afficher le contenu

  • Basculez à nouveau le bouton

    du mode "Browse" et repassez en mode "Workflow"

  • Cliquez sur les données à capturer et sélectionnez "Extraire le texte de l'élément" dans le panneau Tips

  • Voilà, vous avez le contenu de l'onglet capturé directement

Avez-vous trouvé la réponse à votre question ?