Scraper les informations de liste sur Bing
Tuesday, May 18, 2021 2:35 PMDans ce tutoriel, nous vous montrerons comment scraper les informations de liste sur Bing.com.
Pour scraper Bing, vous pouvez utiliser notre "Modèle de tâche" prédéfini sur l'écran principal d'Octoparse.Vous n'avez qu'à saisir quelques paramètres et la tâche sera prête. Pour plus de détails, veuillez consulter ici: Modèles de tâches
Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:
Nous allons extraire des données telles que le titre, URL et la description des résultats de recherche de liste avec Octoparse.
Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici ]:
- Aller à la page Web - ouvrir la page Web cible
- Créer une boucle de pagination - scraper plusieurs pages de liste
- Extraire des données - gratter les éléments cibles sur chaque page
- Enregistrer et démarrer l'extraction - exécuter la tâche et obtenir des données
1. Aller à la page Web - ouvrir la page Web cible
- Entrez URL sur la page d'accueil et cliquez sur "Démarrer"
2. Créer une boucle de pagination - scraper plusieurs pages de liste
- Faites défiler la page vers le bas et cliquez sur le bouton ">" sur la page Web
- Cliquez sur "Cliquer en boucle chaque URL" dans le panneau Tips.
Après avoir créé "Pagination", pour vérifier si elle fonctionne bien ou pas, vous pouvez paginer à la page suivante en cliquant manuellement sur l'action "Paginer" et sur "Cliquer pour paginer" dans le workflow (comme ce que montre le GIF).
3. Extraire des données - gratter les éléments cibles sur chaque page
Commençons par le premier élément non publicitaire dans la liste de résultat de recherche.
- Cliquez sur le titre du premier élément non publicitaire sur la page
- Cliquez sur "Tout sélectionner" dans le panneau Tips
D'autres éléments similaires seront ainsi sélectionnés.
- Choisissez "Extraire le texte d'éléments sélectionnés" dans le panneau Tips
Si toutes les sections sont surlignées en rouge, cela signifie que la boucle a été créée avec succès. Un champ de titre sera aussi généré automatiquement, il vaut mieux de le garder.
- Sélectionnez un élément dans la liste des éléments de boucle, et il sera surligné en bleu
- Cliquez sur le titre d'élément
- Choisissez "Extraire URL du lien sélectionné" dans le panneau de Tips
- Si vous avez besoin de la description, cliquez sur le texte puis choisissez "Extraire le texte de l'élément sélectionné"
- Vous pouvez également ajouter des champs de données prédéfinis en cliquant sur l'icône "+". Dans ce cas, choisissez la "Date & heure actuelles" pour avoir l'heure précise d'extraction
- Si vous voulez renommer le nom du champ, cliquez simplement sur l'icône à côté dans l'"Aperçu des données".
Dans ce cas, nous avons constaté que certaines publicités que nous n'avons pas besoin sont toujours incluses dans notre boucle, nous devons donc modifier XPath, afin de procurer des données plus précises.
- Cliquez pour modifier l'élément boucle et changer XPath en //li[@class='b_algo']
- Cliquez sur "OK" pour enregistrer
Tips! La modification manuelle de XPath fonctionne très bien dans Octoparse, elle peut rendre votre XPath plus flexible et plus précis que celui généré automatiquement.
Voici quelques tutoriels connexes que vous pourriez consulter: |
4. Enregistrer et démarrer l'extraction - exécuter la tâche et obtenir des données
- Premièrement, cliquez sur "Enregistrer" pour enregistrer la tâche
- Puis, cliquez sur "Démarrer" dans le côté supérieur gauche
- Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)
Voici l'exemple de l'exportation.
Auteur: Vanny
Editeur: Yina
Les articles récemment consultés
- Scraper les informations commerciales de Google Maps
- Scraper les informations d'entreprises sur Crunchbase
- Scraper les informations de tendances vidéos sur YouTube
- Scraper les informations d'hôtels de Trip.com
- Scraper les résultats de recherche de Google Scholar