Toutes les collections
Tutoriel sur les cas
Engin de recherche
Scraper des information de page listing de Bing
Scraper des information de page listing de Bing

Bing scraping: Scraper des informations de page listing, y compris le titre,l'url, la date etc.

Mis à jour il y a plus d’une semaine

Bing est l'un des moteurs de recherche les plus populaires au monde. Dans ce tutoriel, nous allons vous montrer comment extraire des informations de résultats de Bing.com.

Pour Bing, vous pouvez consulter notre "modèle de tâche" facile à utiliser sur l'écran principal de l'outil de scraping Octoparse. Tout ce que vous avez à faire est de saisir plusieurs paramètres, et la tâche est prête à être exécutée. Pour plus de détails, veuillez consulter le site ici : Modèles de tâches.

Pour le suivi, vous pouvez utiliser cette URL dans le tutoriel :

Nous allons extraire des données telles que le titre, l'URL et la description de la liste des résultats de recherche avec Octoparse.

1. " Aller à la page Web " - ouvrir la page Web cible

  • Entrez l'URL de l'exemple et cliquez sur "Démarrer".

2. Créez une pagination - pour récupérer plusieurs pages d'annonces.

  • Faites défiler la page vers le bas et cliquez sur le bouton ">" de la page Web.

  • Cliquez sur Loop click single URL dans le panneau Tips.

3. Extraire des données - extraire certains éléments de chaque page.

  • Commençons par le premier élément non publicitaire de la liste des résultats de recherche.

  • Cliquez sur le titre du premier élément non publicitaire de la page.

  • Cliquez sur Sélectionner tout dans le panneau Conseils

  • Choisissez Extraire le texte des éléments sélectionnés dans le panneau Astuces

  • Cliquez sur le titre du premier élément

  • Choisissez Extraire l'URL du lien sélectionné dans le panneau Astuces.

  • Si vous avez besoin de la description, cliquez sur le texte, puis choisissez Extraire le texte de l'élément.

  • Vous pouvez également ajouter certains champs de données prédéfinis à partir de l'icône "+". Je choisis la date et l'heure actuelles pour avoir l'heure extraite.

  • Double-cliquez sur le nom du champ pour le renommer si nécessaire.

Ici, nous avons constaté que certaines publicités sont toujours incluses dans notre boucle, mais nous n'avons pas besoin de ces publicités. Par conséquent, nous devrions modifier le XPath.

  • Cliquez sur l'élément de boucle et modifiez le XPath en //li[@class='b_algo'].

  • Cliquez sur Appliquer pour enregistrer

XPath pour les champs de données doit également être modifié.

  • Passez l'aperçu des données en vue verticale

  • Modifiez le XPath des champs comme ci-dessous

itle: //h2

Title URL: //h2/a

Description: //p

4. Enregistrez et lancez l'extraction - exécutez la tâche et obtenez les données.

  • Cliquez sur Enregistrer pour sauvegarder la tâche en premier

  • Cliquez sur Exécuter dans la partie supérieure gauche

  • Sélectionnez Exécuter la tâche sur votre appareil pour exécuter la tâche sur votre ordinateur, ou sélectionnez Exécuter la tâche dans le cloud pour exécuter la tâche dans le cloud (pour les utilisateurs Premium uniquement).

Voici l'exemple de résultat:

Avez-vous trouvé la réponse à votre question ?