Scraper les informations d'entreprises sur Google Maps

Google Maps est non seulement un site Web de cartographie utiliser pour trouver l'emplacement, mais aussi une base de données riche où vous pouvez trouver de nombreuses informations commerciales. Beaucoup de personnes récupèrent les données de Google Maps pour former leur propre annuaire professionnel ou créer une base de données prospects.

Ce tutoriel vous expliquera comment obtenir des informations d'entreprises sur Google Maps.

Modèles de Google Maps prêts à l'emploi

Tout d'abord, nous vous présenterons le moyen le plus simple - utiliser des Modèles prêts à l'emploi pour Google Maps.

Avec les modèles, vous n'avez qu'à saisir un mot clé ou une URL et puis à attendre que les données sont collectées.

Voilà un exemple de modèle pour votre référence. Pour profiter de ces modèles prêts à l'emploi, il vous faut demander un essai gratuit de 14 jours

Essai gratuit de 14 jours

Comment utiliser le modèle ?

Choisir le modèle qui répond à votre besoin et lire les instructions.
Entrez les mots-clés : par exemple, "web scraping"
Lancer la tâche et attendre la collection de données.

Si vous voulez apprendre à configurer en vous-même le crawler, vous pouvez continuer avec ce tutoriel.

URL d'exemple : https://www.google.com/maps/search/insurance+West+University+Place,+TX/@29.716598,-95.4987615,10z/data=!3m1!4b1

Nous allons gratter les champs de données ci-dessous : titre, nombre d'avis, note, adresse, téléphone, site Web, temps d'ouverture.

1. Aller à la page Web - pour ouvrir la page Web cible

Entrez l'URL d'exemple dans la barre de recherche et cliquez sur "Démarrer"

Si vous avez de nombreuses URLs à extraire, vous pouvez égalment les saisir tous dans la barre de recherche.

2. Créer une boucle du genre de défilement partiel - pour charger plus de résultats

Ajouter une boucle dans le flux de travail
Sélectionner le mode de boucle comme Défilement infini
Sélectionner le zone de défilement comme Partiel
Saisir le xpath //a[@class="hfpxzc"]/../../..

Sélectionner Défilement pour un écran
Définir Répétitions comme 100 et Attendre 1s
Cliquer sur "Appliquer" pour enregistrer ces changements.

3. Créer une boucle d'éléments - pour cliquer sur chaque résultat

Cliquer sur le premier bloc de business de la liste
Cliquer sur le deuxième bloc
Sélectionner "Cliquer sur chaque URL en boucle"

Sélectionner "Non"
Aller aux paramètres de Elément de la boucle 1
Sélectionner le mode boucle comme Liste de variables
Saisir le xpath //a[@class="hfpxzc"]
Cliquer sur Appliquer pour tout enregistrer

Aller aux paramètres de "Cliquer sur l'élément"
Aller aux Options
Décocher Ouvrir dans un nouvel onglet
Définir le délai d'attente de Ajax comme 7s
Cliquer sur Appliquer pour tout enregistrer

4. Extraire les données - pour sélectionner les données à extraire

Cliquer sur les informations dont vous avez besoin sur la page, telles que le titre, l'adresse, etc.
Sélectionner "Données des éléments" dans le panneau de conseils
Répétez jusqu'à ce que vous obteniez tous les champs de données souhaités

Aller aux paramètres de l'étape de Extraire des données
Décocher Extraire les données dans la boucle

Aller aux Options
Définir l'attente avant action comme 3s
Cliquer sur Appliquer pour tout enregistrer

Veuillez noter que Google est assez strict avec le scraping de ses données et le code source est très difficile à lire. Donc, nous devons donc réviser le XPath pour chaque champ de données pour nous assurer une extraction précise.

Mais ne vous inquiétez pas ! Nous avons préparé tout ce dont vous pourriez avoir besoin. Vous pouvez simplement utiliser le XPath fourni ci-dessous.

Remplacez le XPath par défaut par celui révisé

Titre: //h1
Nombre d'avis : //button[@jsaction="pane.rating.moreReviews"]
Note des avis : //span[@class="section-star-display"]
Catégorie : //button[@jsaction="pane.rating.category"]
Addresse : //button[@data-item-id="address"]
Site Web : //button[@data-item-id="authority"]
Numéro de téléphone : //button[contains(@data-item-id,"phone")]
Temps d'ouverture : //div[contains(@class,"open-hours")]

Pour mieux comprendre Xpath : Qu'est-ce que XPath et comment l'utiliser dans Octoparse ?

5. Extraire les données au niveau des pages - pour extraire les coordonnées géographiques (optionnel)

C'est un besoin demandé par de nombreux utilisateurs, donc on l'ajoute ici. Les coordonnées géographiques sont incluses dans l'URL, et donc, on doit extraire tout d'abord l'URL dans cette étape.

Cliquer sur Ajouter un champ personnalisé
Sélectionner Données au niveau des pages
Choisir URL de la page

Ensuite, nous devons faire correspondre les coordonnées géographique de l'URL de la page avec l'outil RegEx.

Cliquer sur le bouton Plus du champ de Page_URL, et puis sélectionner Nettoyer les données

Cliquer sur +Ajouter une étape et puis sélectionner Faire correspondre avec une expression régulière

Essayez l'outil RegEx si vous ne souhaitez pas écrire vous-même des expressions régulières.

Saisir les paramètres suivants et cliquer sur Générer et puis Adapter
Vérifier la case "Résultats" pour voir si les données sont dans le format souhaité.
Cliquer sur Appliquer pour enregistrer les paramètres.

6. Lancer l'extraction - exécuter la tâche et obtenir des données

Cliquez sur Enregistrer pour enregistrer la tâche
Cliquez sur Exécuter dans le côté supérieur gauche
Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre appareil
Les extractions locales sont normalement pour expérimenter. Si vous souhaitez que le crawler s'exécute à une vitesse plus élevée, vous pouvez sélectionner "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le cloud (uniquement pour les utilisateurs premium)

Voici l'exemple de l'exportation.

Il est à noter que Google Maps n'affiche pas les emails. Si vous souhaitez obtenir l'adresse électronique de l'entreprise, consultez notre modèle Email et liens vers les médias sociaux.

Il vous suffit de saisir l'URL du site de l'entreprise que vous avez récupéré sur Google Maps dans ce modèle et vous obtiendrez les adresses électroniques.

FAQ

Vous remarquez bien sûr également que Google Maps ne présente que des centaines de résultats pour chaque recherche. Mais dans la plupart de cas, notre besoin est de récupérer l'intégralité des business, comment faire ?

Vous pouvez mettre en service les codes postales. C'est à dire lancer la recherche sous forme de "mot-clé (comme pharmacie) + code postal" pour assurer la complétitude des données récupérées.