Si vous avez déjà essayé de scraper sur un site de e-commerce, vous n'êtes peut-être pas étranger à la pratique de l'extraction de données à partir d'un onglet. Lorsqu'une page Web doit afficher beaucoup d'informations sur une seule page, elle utilise souvent des onglets pour mieux trier les informations, et ce n'est que lorsque vous cliquez sur un onglet spécifique que les informations respectives s'affichent.
Prenons l'exemple de cette page web :
Sur cette page Web, si vous souhaitez voir les données de l'onglet "Shipping and Returns" et de l'onglet "Size Guide", vous devez cliquer sur ces onglets respectivement.
Maintenant, si nous voulons extraire les données de l'onglet "Shipping and Returns", comment faire ? Il y a deux façons pour obtenir les données au sein d'un onglet.
1. Extraction de données au sein d'un onglet en cliquant d'abord sur l'onglet
Évidemment, vous pouvez demander à Octoparse de cliquer sur les onglets et d'extraire le contenu des onglets respectifs.
Cliquez sur l'onglet "Shipping and Returns"
Sélectionnez " Cliquer sur l'élément " dans le panneau Tips
Configurez AJAX. Vous pouvez ajuster le délai d'AJAX en fonction de la vitesse de votre réseau
Ensuite, cliquez sur les données que vous souhaitez capturer et sélectionnez "Extraire le texte de l'élément" dans le panneau Tips
Conseil :
Pour l'action Cliquer, veuillez vous assurer que l'option Ouvrir dans un nouvel onglet n'est pas cochée
2. Extraire des données au sein d'un onglet directement lorsque le contenu est trouvé dans le code source
Même si les informations sont classées dans différents onglets, le contenu de chaque onglet peut déjà exister dans le code source, que l'on clique sur un onglet ou non. Dans ce cas, nous pouvons d'abord faire afficher le contenu de l'onglet en mode "Browse", puis procéder à l'extraction des informations cibles directement. De cette façon, il n'est pas nécessaire d'ajouter aucune action de clic au flux de travail.
Pour vérifier si le contenu de l'onglet est inclus dans le code source, chargez la page Web dans votre navigateur de tous les jours et appuyez sur F12 sur le clavier
Inspectez le code source et voyez si le contenu cible s'y trouve. Pour cette page Web d'exemple, nous pouvons voir que même si nous n'avons pas cliqué sur l'onglet "Shipping and Returns" nous pouvons trouver les données correspondantes dans le code source. Nous savons donc qu'il est possible d'extraire le contenu de l'onglet directement sans avoir à cliquer sur l'onglet
Maintenant, retournez dans Octoparse, basculez le bouton
en haut à droite du navigateur intégré et passez en mode "Browse"
Cliquez sur l'onglet "Shipping and Returns" pour afficher le contenu
Basculez à nouveau le bouton
du mode "Browse" et repassez en mode "Workflow"
Cliquez sur les données à capturer et sélectionnez "Extraire le texte de l'élément" dans le panneau Tips
Voilà, vous avez le contenu de l'onglet capturé directement