undefined

Scraper les informations d'entreprises sur Google Maps

Wednesday, May 19, 2021 10:46 AM

 

Google Maps est non seulement un site Web de cartographie pour vous aider à trouver l'emplacement, mais aussi une base de données riche où vous pouvez trouver de nombreuses informations commerciales. Beaucoup de personnes récupèrent les données de Google Maps pour former leur propre annuaire professionnel ou créer une base de données prospects .

Ce tutoriel vous expliquera comment obtenir des informations d'entreprises sur Google Maps.

 

Pour commencer, nous vous présenterons le moyen le plus simple - Modèles de tâches pour Google Maps.

mceclip0.png

Avec le(s) modèle(s), il vous suffit de saisir un mot-clé (par exemple, Comptabilité, NY) ou une URL de page Web (e.g. https://www.google.com/maps/search/insurance+West+University+Place,+TX/@29.716598,-95.4987615,10z/data=!3m1!4b1) puis attendez que les données sortent.

mceclip1.png

Voici un exemple de données de modèle pour votre référence. Pour expérimenter cette fonctionnalité conviviale, vous pouvez demander un essai premium de 14 jours pour commencer: Essayez la version d'essai gratuite d'Octoparse pendant 14 jours!external-link-symbol-1.png

mceclip2.png

 

Si vous voulez apprendre à configurer en vous-même le crawler, vous pouvez continuer avec ce tutoriel.

URL d'Exemplehttps://www.google.com/maps/search/insurance+West+University+Place,+TX/@29.716598,-95.4987615,10z/data=!3m1!4b1

Nous allons gratter les champs de données ci-dessous: titre, numéro de revue, note de revue, adresse, téléphone, site Web, temps ouvert

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Créer une boucle de pagination - scraper les données de plusieurs pages
  3. Créer un "Elément de boucle" -  scraper en boucle tous les éléments de la page actuelle
  4. Extraire les données - sélectionner les données à extraire
  5. Cliquer sur l'élément - Cliquez sur "Retour aux résultats"
  6. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

 

1) "Aller à la page Web" - ouvrir la page Web cible

  • Entrez l'URL d'exemple dans la barre de recherche et cliquez sur "Démarrer"

Si vous avez de nombreuses URLs à extraire, vous pouvez les saisir tous dans la barre de recherche. Pour en savoir plus sur "Ouvrir une page Web", consultez ce guide: Allez à la page Webexternal-link-symbol-1.pngmceclip3.png

  • Double-cliquez sur "Aller à la page Web" et définissez un long délai d'attente, "120s" par exemple.

 mceclip0.png

 

 

 

2) Créer une boucle de pagination - scraper les données de plusieurs pages

  • Cliquez sur le bouton de pagination ">"
  • Cliquez sur "Cliquer en boucle chaque élément" dans le panneau Tips.

Après les actions précédentes, une "Pagination" est créée dans le workflow. Vous pouvez cliquer sur la barre de pagination et puis sur le bouton "Cliquer pour paginer" pour tester si elle fonctionne bien ou pas.

Le XPath défini automatiquement de "pagination" fonctionne bien dans la plupart des cas, mais il y pourrait avoir un problème pour récupérer les données de la dernière page. Dans ce cas par exemple, nous devons réviser XPath de "Pagination".

  • Double-cliquez sur l'étape "Pagination" ou cliquez sur mceclip0.png
  • Copiez et collez le XPath révisé dans la zone de texte: //button[contains(@jsaction,"pane.paginationSection.nextPage")][not(contains(@class,"button-disabled"))]

pagination.gif

 
Action supplémentaire - ajuster les Paramètres d'AJAX pour "Cliquer pour paginer"
Parfois, la page Web peut prendre plus de temps à se charger. Vous pouvez donc modifier le délai d'attente AJAX en fonction des conditions du réseau.
  • Double-cliquez sur "Cliquer pour paginer"
  • Ajustez le délai d’attente AJAX à "7 s" ou encore plus long
mceclip4.png

Tips!

Si vous voulez en savoir plus sur AJAX, consultez ce guide: Manipulation d'AJAXexternal-link-symbol-1.png

 

 

 

3) Créer un "Elément de boucle" - scraper en boucle tous les éléments de la page actuelle

  • Cliquez sur le 1er et le 2ème titre de la liste jusqu'à ce qu'Octoparse détecte tous les autres éléments similaires
  • Cliquez sur "Cliquez en boucle sur chaque élément" dans le panneau Tips

5.2gif.gif

Après les étapes précédentes, un "élément de boucle" sera généré dans le flux de travail et la première page d'élément sera ouverte.

Ensuite, nous ajuster "Elément en Boucle".

  • Double-cliquez sur "Élément en Boucle"
  • Changez le "Mode de Boucle" de "Liste Fixée" à "Liste Variée"
  • Entrez XPath d'Elément //h3

bu.gif

 

Nous devons aussi modifier les paramètres de l'Elément à Cliquer.

  • Double-cliquez "Elément à Cliquer"
  • Décochez l'option "Ouvrir dans un nouvel onglet"
  • Ajustez le délai d'attente AJAX à "10s" (vous pouvez le définir en fonction de l'état de votre réseau)

2.2.gif

 

 

4) Extraire les données - sélectionner les données à extraire

Maintenant, vous êtes sur la page de détails de l'entreprise.

  • Cliquez sur les informations dont vous avez besoin sur la page, telles que le titre, l'adresse, etc.
  • Sélectionnez "Extraire le texte de l'élément sélectionné" dans le panneau "Tips"
  • Répétez jusqu'à ce que vous obteniez tous les champs de données souhaités

3.gif

 

  • Double-cliquez sur l'étape "Extraire les données" dans le flux de travail
  • Cliquez sur le nom de champs pour les renommer si nécessaire

4.png

 

Google est assez strict avec le scraping de ses données et il a un code source très difficile à lire, nous devons donc réviser l'élément XPath pour chaque champ de données.

Mais vous-inquiétez pas! Nous avons préparé tout ce dont vous pourriez avoir besoin. Vous pouvez simplement utiliser l'élément XPath fourni ci-dessous.

  • Cliquez sur l'icône mceclip0.png pour modifier XPath un par un

mceclip1.png

  • Remplacez le XPath par défaut par celui révisé (vous pouvez choisir en fonction de vos besoins de scraping. XPath doit correspondre aux éléments qui peuvent être localisés sur la page Web.)
    • Titre: //h1
    • Nombre d'avis: //button[@jsaction="pane.rating.moreReviews"]
    • Note des avis: //span[@class="section-star-display"]
    • Catégorie: //button[@jsaction="pane.rating.category"]
    • Addresse: //button[@data-item-id="address"]
    • site Web: //button[@data-item-id="authority"]
    • Numéro de téléphone: //button[contains(@data-item-id,"phone")]
    • Temps ouvert: //div[contains(@class,"open-hours")]
  • Cliquez sur "OK" pour enregistrer

mceclip1.png

 

Tips!

Si vous voulez savoir plus sur XPath, veuillez consulter le tutoriel suivant:

What is XPath and how to use it in Octoparse

 

 

 

5) Cliquer sur l'élément - Cliquez sur "Retour aux résultats"
Dans la plupart des cas, nous n'avons pas besoin d'ajouter cette étape, mais Google Maps est un peu particulier. Cette action permet à la tâche de revenir à la page de résultats précédente et de continuer à gratter les éléments suivants.

  • Cliquez sur le bouton "Retourner aux résultats" sur la page Web
  • Choisissez "Cliquez sur le bouton"dans le panneau de Tips

5.png

 

  • Prolongez le délai d'attente AJAX à 7 s-10 s en fonction de l'état du réseau

5.1.png

 

 

 

6) Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer" pour enregistrer la tâche
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil
    • Les extractions locales sont normalement pour expérimenter. Si vous souhaitez que le crawler s'exécute à une vitesse plus élevée, vous pouvez sélectionner "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le cloud (uniquement pour les utilisateurs premium)
    • Essayez la version d'essai gratuite d'Octoparse pendant 14 jours!

mceclip2.png

 

Voici l'exemple de l'exportation. 

mceclip3.png

 

 

Tutorial en español:  Scrapear información comercial de Google Maps

También puedes leer más artículos de web scraping en el sitio web oficial

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter