undefined

Scraper les informations de liste sur Bing

Tuesday, May 18, 2021 2:35 PM

Dans ce tutoriel, nous vous montrerons comment scraper les informations de liste sur Bing.com.

Pour scraper Bing, vous pouvez utiliser notre "Modèle de tâche" prédéfini sur l'écran principal d'Octoparse.Vous n'avez qu'à saisir quelques paramètres et la tâche sera prête. Pour plus de détails, veuillez consulter ici: Modèles de tâchesexternal-link-symbol-1.png

 

mceclip0.png

 

Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:

http://www.bing.com/search?q=Web+scraping&form=QBLHVN&sp=-1&pq=web+scraping&sc=8-12&qs=n&sk=&cvid=0F966DDFA0C4442CA6957B085350A50Dwww.bing.com

Nous allons extraire des données telles que le titre, URL et la description des résultats de recherche de liste avec Octoparse.

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici  ]:

  1. Aller à la page Web - ouvrir la page Web cible
  2. Créer une boucle de pagination - scraper plusieurs pages de liste
  3. Extraire des données - gratter les éléments cibles sur chaque page
  4. Enregistrer et démarrer l'extraction - exécuter la tâche et obtenir des données

 

 

1. Aller à la page Web - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

mceclip0.png

 

 

2. Créer une boucle de pagination - scraper plusieurs pages de liste 

  • Faites défiler la page vers le bas et cliquez sur le bouton ">" sur la page Web
  • Cliquez sur "Cliquer en boucle chaque URL" dans le panneau Tips.

Après avoir créé "Pagination", pour vérifier si elle fonctionne bien ou pas, vous pouvez paginer à la page suivante en cliquant manuellement sur l'action "Paginer" et sur "Cliquer pour paginer" dans le workflow (comme ce que montre le GIF).

paginate.gif

 

 

3. Extraire des données - gratter les éléments cibles sur chaque page

Commençons par le premier élément non publicitaire dans la liste de résultat de recherche.

  • Cliquez sur le titre du premier élément non publicitaire sur la page
  • Cliquez sur "Tout sélectionner" dans le panneau Tips
  • mceclip1.png

D'autres éléments similaires seront ainsi sélectionnés.

 

  • Choisissez "Extraire le texte d'éléments sélectionnés" dans le panneau Tips
  • mceclip2.png

Si toutes les sections sont surlignées en rouge, cela signifie que la boucle a été créée avec succès. Un champ de titre sera aussi généré automatiquement, il vaut mieux de le garder.

  • Sélectionnez un élément dans la liste des éléments de boucle, et il sera surligné en bleu
  • Cliquez sur le titre d'élément
  • Choisissez "Extraire URL du lien sélectionné" dans le panneau de Tips
  • Si vous avez besoin de la description, cliquez sur le texte puis choisissez "Extraire le texte de l'élément sélectionné"

loop_extract_data_final_latest.gif

  • Vous pouvez également ajouter des champs de données prédéfinis en cliquant sur l'icône "+". Dans ce cas, choisissez la "Date & heure actuelles" pour avoir l'heure précise d'extraction

mceclip3.png

  • Si vous voulez renommer le nom du champ, cliquez simplement sur l'icône à côté dans l'"Aperçu des données".                                                    mceclip4.png

Dans ce cas, nous avons constaté que certaines publicités que nous n'avons pas besoin sont toujours incluses dans notre boucle, nous devons donc modifier XPath, afin de procurer des données plus précises.

  • Cliquez pour modifier l'élément boucle et changer XPath en //li[@class='b_algo']  
  • Cliquez sur "OK" pour enregistrer

3.png

 

Tips!

La modification manuelle de XPath fonctionne très bien dans Octoparse, elle peut rendre votre XPath plus flexible et plus précis que celui généré automatiquement.
Voici quelques tutoriels connexes que vous pourriez consulter:
 

 

4. Enregistrer et démarrer l'extraction - exécuter la tâche et obtenir des données

  • Premièrement, cliquez sur "Enregistrer" pour enregistrer la tâche
  • Puis, cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

mceclip8.png

 

Voici l'exemple de l'exportation.

mceclip9.png

 

 

Auteur: Vanny

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter