undefined

Extraire les avis publiés sur Google Maps ( V8.4 +)

Wednesday, February 16, 2022 4:57 PM

En tant que roi des applications de navigation, Google Maps a commencé par offrir un moyen simple de se déplacer d'un endroit à l'autre, mais s'est transformé en une base de données mondiale débordant d'informations commerciales parmi les plus précieuses disponibles sur Internet.

Cependant, si vous êtes propriétaire d'une entreprise et que vous souhaitez extraire des avis sur des entreprises ou des lieux à partir de Google Maps, le moyen officiel d'obtenir des avis via l'API Google est limité à 5 avis, ce qui est à peine suffisant, même pour la tâche la plus simple. Mais avec Octoparse, vous pouvez créer votre propre crawler et récupérer un nombre illimité d'avis sur des entreprises ou des lieux directement depuis Google Maps en quelques minutes.

Dans ce tutoriel, nous vous aide à créer votre propre workflow, de A à Z, pour extraire les avis Google Maps.

 

💡Note:Ce tutoriel est pour la version 8.4 +, parce que la tâche nécessite la nouvelle fonction de défilement partiel. Si vous utilisez une version antérieure d'Octoparse, nous vous recommandons de passer à la dernière version pour profiter de cette nouvelle fonctionnalité puissante ainsi que de la nouvelle interface des tâches.

 

 

À des fins de démonstration, nous allons récupérer les avis de Google Maps pour la Gigafactory 1 de Tesla. Voir l'exemple d'URL ci-dessous :

https://www.google.com/maps/place/Tesla+Gigafactory/@39.5375591,-119.4412284,17z/data=!3m1!4b1!4m5!3m4!1s0x80991fc240ba30b9:0x7e66b0fa4fe55cd8!8m2!3d39.537555!4d-119.4390397?hl=en

 

Voici les principales étapes qui seront mentionnées dans ce tutoriel :

1. Créer un "Go to Web Page" - pour ouvrir la page Web cible.

2. Créer un élément de "click" - pour aller à la page "Tous les avis".

3. Créer un élément de boucle avec un défilement partiel - pour faire défiler la colonne des avis.

4. Extraire des données dans la boucle - pour sélectionner les données à extraire.

5. Nettoyer les champs de données - pour préciser les données

6. Exécuter la tâche - pour obtenir les données souhaitées

 

 

💡Tips :

Vous pouvez télécharger le fichier de tâches de démonstration [envoyer un message ⇒ support@octoparse.com]. Importez-le dans Octoparse et comparez-le avec le vôtre pour voir si vous avez fait une erreur de scraping.

 

 

1. Créer un "Go to Web Page" - pour ouvrir la page Web cible.

Chaque processus de scraping commence par indiquer à Octoparse la page cible.

  • ♦ Saisissez l'URL de l'échantillon dans la barre de recherche en haut de l'écran d'accueil et cliquez sur " Start ".

 

 

Vous pouvez également saisir l'URL en créant la tâche en mode avancé.

  • ♦ Trouvez le bouton + New , cliquez et sélectionnez ensuite le mode avancé.

 

 

 

  • ♦ Saisissez manuellement l'URL dans le champ du site Web et cliquez sur Save pour commencer.

 

Dans tous les cas, vérifiez si une action "Go to Web Page" a été générée dans votre workflow. Si vous avez plus d'une URL, lisez cet article pour savoir comment Octoparse traite une liste d'URL.

 

 

2.Créer une étape de "Click" - pour aller à la page "Tous les avis".

  • ♦ Cliquez sur "600 reviews" qui vous dirigera vers la page "All Reviews" et sélectionnez le bouton "Cliquer" pour générer une action "Click" dans votre flux de travail.

 

 

  • ♦ Définissez le timeout AJAX à 15s ou plus.

  

Nous avons maintenant atteint la page qui contient les commentaires.

 

 

3.Créez un élément de boucle avec un défilement partiel - pour faire défiler la colonne des avis.

La nouvelle page comporte plusieurs barres de défilement et les avis souhaités se trouvent dans une colonne déroulante sur la gauche. La page ne chargera pas plus d'avis si vous ne faites pas scroller la colonne de gauche, nous devons donc mettre en place une boucle avec un défilement partiel pour que notre workflow puisse faire défiler et extraire en même temps.

 

  • ♦ Ajouter une étape d'élément Loop à votre flux de travail

 

 

  • ♦ Cliquez sur l'élément de boucle, définissez le Loop sur "Scroll Page" et changez le Scroll Area de Défaut à Partiel.

 

 

 

  • ♦ Entrez XPath de la zone de défilement pour indiquer à Octoparse où défiler.

 

Saisissez directement la XPath si vous êtes un pro de scraping.

Vous ne savez pas comment écrire une XPath vous-même ? Ne vous inquiétez pas, vous n'êtes pas seul. Vous pouvez maintenant simplement cliquer sur l'icône mceclip0.pnget sélectionner manuellement toute la zone de défilement de la page Web. Octoparse générera automatiquement une XPath pour vous. Lisez cet article pour devenir un maître de XPath.

 

 

💡Tips : Ajustez délicatement la zone sélectionnée pour assurer que vous avez sélectionné toute la zone de défilement (y compris la barre de défilement). 

 

  • ♦ Choisissez entre un défilement "to the bottom of the page" ou "for one screen".
  • ♦ Définissez combien de fois vous souhaitez le faire défiler.
  • ♦ Définissez un temps d'attente (intervalle de temps entre chaque défilement).
  • ♦ Cliquez sur " Apply " pour enregistrer vos paramètres.

 

 

 

Nous avons maintenant réussi à mettre en place une boucle de défilement partiel.

 

 

4. Extraire des données dans la boucle - pour sélectionner les données à extraire.

 

Cette étape est rapide et facile grâce à la fonction innovante d'auto-détection d'Octoparse.

  • ♦ Cliquez sur Auto-detect dans la boîte de conseils et attendez qu'elle se termine.

 

 

 

💡Tips : Si la détection automatique ne réussit pas à extraire la liste, vous pouvez également sélectionner plusieurs éléments similaires sur la page Web pour indiquer à Octoparse le type de sélection. Consultez cet article pour savoir comment configurer manuellement une extraction de liste.

 

 

  • ♦ Renommez les champs de données et supprimez ceux que vous ne voulez pas.

 

 

 

Dans ce cas, nous voulons extraire les données telles que la date de l'avis, le nombre d'avis, le contenu de l'avis et le nombre de likes.

 

 

  • ♦ Confirmez les paramètres dans la boîte de conseils et cliquez sur Create workflow.

 

 

  • ♦ Assurez-vous que l'élément de boucle que vous créez (il devrait être nommé Loop Item 1 par défaut) est placé à l'intérieur de l'élément de boucle précédent.

 

 

 

5. Nettoyer les champs de données - pour préciser les données

Vous pouvez noter que certaines données dans la colonne ont un point inutile. Utilisez l'option Clean data pour supprimer les points inutiles.

  • ♦ Cliquez ... pour obtenir plus d'options pour les champs de données.
  • ♦ Cliquez sur Clean data

 

 

  • ♦ Cliquez sur + Add Step et sélectionnez l'option Replace.

 

 

 

  • ♦ Saisissez un point dans la barre Replace et remplacez-le par blank (laissez la barre "With" vide).
  • ♦ Cliquez sur Evaluate pour voir si vous avez obtenu le résultat souhaité.
  • ♦ Cliquez sur Confirm pour appliquer la modification.

6. Exécutez la tâche - pour obtenir les données souhaitées

 

  • ♦ Cliquez sur Save en haut à droite pour enregistrer votre tâche.
  • ♦ Cliquez sur Run et attendez qu'une fenêtre Run Task s'affiche.
  • ♦ Sélectionnez Run on your device pour exécuter la tâche sur votre ordinateur local.
  • ♦ Attendez que la tâche soit terminée

Voici l'exemple de résultat d'une exécution locale.

 

 

💡Tips: Les exécutions locales sont idéales pour résoudre les problèmes de tâches. Si vous travaillez sur des tâches plus complexes, il est recommandé de sélectionner Run in the Cloud pour exécuter la tâche dans le Cloud. Essayez cette fonctionnalité premium en vous inscrivant à l'essai gratuit de 14 jours ici. Vous pouvez également programmer l'exécution de vos tâches tous les jours ou toutes les semaines et recevoir des données régulièrement.

 

 

Si vous rencontrez d'autres problèmes ou si vous avez une idée pour améliorer Octoparse, n'hésitez pas à nous contacter ! Soumettez un message ici.

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter