undefined

Scraper les avis des clients de Yelp

Friday, May 14, 2021 4:00 PM

 

Dans ce tutoriel, nous vous présenterons comment extraire les données d'avis de Yelp. Nous gratterons les informations de base de boutiques, les noms de consommateurs et les commentaires d'un café en tant qu'exemple.

Pour suivre, vous voudrez peut-être utiliser l'URL de ce tutoriel:

https://www.yelp.com/biz/storyville-coffee-company-seattle-9?osq=Coffee+%26+Tea

 

 

Ce tutoriel couvrira également:

  • Modifier XPath pour localiser les données souhaitées précisément

 

Principales étapes du tutoriel: 

1. "Entrer dans la page Web" - ouvrir la page Web ciblée

2.  Extraire les données de la page d'accueil

3.  Créer une boucle de pagination - récupérer tous les commentaires de plusieurs pages

4.  "Eléments de Boucle" - Extraire les mêmes éléments de chaque avis

5.  Extraire les données - capturer en boucle les informations de commentaires inclues dans la liste d'extraction

6.  Personnaliser les champs de données par modifier XPath - améliorer la précision d'un certain champ de données (facultatif)

7.  Reformater les champs de données à l'aide de l'outil Regex - Reformater les classements en chiffre

8.  Démarrer l'extraction - exécuter la tâche et obtenir des données

 

 

1. "Entrer dans la page Web" - ouvrir la page Web ciblée

  • Entrez l'URL cible dans la barre et cliquez sur "Démarrer"

  mceclip3.png

 

2. Extraire les données de la page d'accueil

  • Cliquez sur le nom du café sur la page Web
  • Cliquez sur "Extraire le texte de l'élément sélectionné" dans le panneau "Tips"
  • Vous pouvez répéter les étapes précedentes pour scraper d'autres éléments

mceclip1.png

 

3. Créer une boucle de pagination - récupérer tous les commentaires de plusieurs pages

  • Faites défiler la page vers le bas et cliquez sur le bouton ">" dans la zone de commentaires
  • Cliquez sur "Boucle cliquez sur un seul élément" dans le panneau "Tips"

Review.gif

Comme ce site Web applique la technique AJAX pour charger les nouveaus contenus, nous devons configurer "AJAX load" pour aider Octoparse à éviter d'être bloqué.

  • Configurez "AJAX Timeout" à "10" secondes

 mceclip0.png

Tips!

Pour en savoir plus sur AJAX, veuillez consulter:

 

 

4. "Eléments de Boucle" - Extraire les mêmes éléments de chaque avis

Nous sommes maintenant sur la deuxième page. Faites attention, pour créer un "élément de boucle", il faut toujours commencer par le 1er élément de la 1ère page.

  • Cliquez sur "Aller à la page Web" dans le flux de travail.
  • Sélectionnez la boucle de pagination dans le workflow

En faisant cela, nous pouvons aider Octoparse à décider de l'ordre d'exécution et à générer l'élément de boucle à la position appropriée dans le flux de travail.

  • Sélectionnez le nom du premier consommateur
  • Choisissez "Tout sélectionner"
  • Choisissez "Extraire le texte des liens sélectionnés" 

Loop_item_review.gif

 

5. Extraire les données - capturer en boucle les informations de commentaires inclues dans la liste d'extraction

Une fois l'élément de boucle créé, vous noterez que le premier consommateur est surligné en rouge. Vous pouvez continuer à choisir d'autres informations dans la zone surlignée.

  • Cliquez sur les éléments que vous souhaitez inclure dans votre extraction 
  • Cliquez sur "Extraire le texte de l'élément sélectionné" 

1.png

  •   Répétez ces étapes jusqu'à ce que tous les éléments souhaités soient extraits
  •   Renommez tous les champs de données prédéfinis

1.gif

Si vous souhaitez obtenir le classement en chiffre, vous devrez extraire le code HTML externe des classement en étoile. Nous vous guiderons sur la façon d'obtenir les informations de classement à l'étape 7.

mceclip7.png

 

6. Personnaliser les champs de données par modifier XPath - améliorer la précision d'un certain champ de données (facultatif)

Dans ce cas, le contenu de commentaire se trouve toujours aux endroits différents selon de différents commentateurs. Ce problème d'emplacement irrégulier pourrait causer les manques de données, nous devons modifier leur XPath dans Octoparse pour qu'elles soient toutes détectées avec précision.

  • Cliquez sur le paramètre de l'action "Extraire les Données"

2.png

  • Cliquez sur le bouton "Personnaliser Xpath" comme ci-dessous

2021-01-26_16-33-41.jpg

  • Collez le bon Xpath dans la zone relative et cliquez sur "OK"

Nous avons préparé les XPath fréquemment utilisés pour vous. Vous pouvez simplement utiliser l'élément XPath fourni ci-dessous.

    • Site Web: //p[text()='Business website']/following-sibling::p[1]
    • Téléphone: //p[text()='Phone number']/following-sibling::p[1]
    • Heures d'ouverture: //table[contains(@class,'Heures d'ouverture')]
    • Adress: //adress
    • Agréments: //h4[text()='Agréments et Plus']/../../following-sibling::div
    • À propos de l'entreprise: //h4[text()='À propos de l'entreprise']/../../following-sibling::div
    • Échelle des prix: //span[contains(text(),'')]
    • Catégorie: //a[contains(@class,'link-color--inherit')]
    • Note moyenne: (//div[contains(@aria-label,'star rating')])[1]

 

Tips!

Pour améliorer la précision d'un certain champ de données, nous vous recommande fortement de modifier XPath dans Octoparse. Voici quelques tutoriels connexes dont vous pourriez avoir besoin:

 
7. Reformater les champs de données à l'aide de l'outil Regex - Reformater les classements en chiffre

Les informations de notation ne sont pas affichées sous forme de texte, mais stoquées comme une valeur d'un attribut dans le code HTML. Dans ce cas, nous pouvons extraire la valeur de l'attribut.

3.png

  • Cliquez sur l'option "Plus" et choisissez "Personnaliser le champ"

4.png

  • Sélectionnez "arial-label"

2.gif

 

 

8. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer"
  • Sélectionnez "Exécuter la tâche sur votre appareil" pour exécuter la tâche avec votre appareil local, ou sélectionnez "Exécuter la tâche dans le cloud"pour exécuter la tâche sur nos serveurs cloud (uniquement pour les utilisateurs premium)
  • Pour un utilisateur premium, l'Extraction Cloud est fortement recommandé.

 mceclip11.png

 

Voilà l'exemple d'exportation

mceclip12.png

 

 

 

Auteur: Lesley 

Editeur: Yina

 

Les articles récemment consulités

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter