undefined

Scraper les données d'hôtels de Tripadvisor

Friday, May 14, 2021 4:13 PM

Dans ce tutoriel, nous vous montrerons comment collecter des informations d'hôtels sur Tripadvisor.com avec Octoparse.

Nous allons vous montrer comment scraper les informations détaillées d'hôtel en commençant par une URL de liste. Veuillez noter que l'Octoparse accepte sans aucun problème le commencement avec des mots-clés ou des URL.

 

La plus facile façon d'atteindre cet objectif est d'utiliser le modèle prédéfini Tripadvisor. Vous pouvez trouver l'icône Tripadvisor sur l'écran principal de l'app Octoparse. Tout ce que vous reste à faire est de saisir quelques paramètres et la tâche sera prête. Pour plus de détails, vous pouvez consulter ici: Modèles de tâchesexternal-link-symbol-1.png

1.1.png

 

Si vous voulez savoir comment créer une tâche à partir de zéro avec Octoparse, veuillez suivre les étapes ci-dessous. Nous allons scraper des données tels que le nom, l'adresse, la description et la note sur la page de détails d'hôtels avec Octoparse.

 

Pour continuer, vous voudrez peut-être utiliser l'URL suivante:

https://www.tripadvisor.com/Hotels-g60763-New_York_City_New_York-Hotels.html

 

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de démonstration de tâche ici]

  1. Aller à la page Web - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Cliquer sur chaque lien de détail pour obtenir plus d'informations
  4. Extraire des données - extraire des données sur la pages de détail
  5. Configurer le temps d'attente - ralentir la vitesse de grattage
  6. Modifier XPath de "Cliquer sur les URL dans la liste"
  7. Démarrer l'extraction - exécuter la tâche et obtenir des données

 

 

1) Aller à la page Web - ouvrir la page Web cible

  • Entrez l'URL sur la page d'accueil et cliquez sur "Démarrer"

1.png

 

 

2) Auto-détecter la page Web - créer un flux de travail

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

2.2.png

  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
    • Vous pouvez supprimer tous les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez également modifier les noms des champs de données en cliquant directement sur l'icône mceclip14.png

2.png

 

  •   Cliquez sur "Créer un workflow"

2.1.png

 

Si les données dont vous avez besoin peuvent toutes être extraites de la page de liste, vous pouvez passer juestement à la Configuration du temps d'attente pour ralentir la vitesse de récupération. Si vous souhaitez cliquer sur chaque lien de détaille pour obtenir plus d'informations, veuillez suivre l'étape suivante.

 

 

3) Cliquer sur chaque lien de détail pour obtenir plus d'informations

  • Choisissez "Cliquer sur le(s) lien(s) pour gratter la(les) pages liées" dans le panneau "Tips"
  • Sélectionnez "Cliquer sur le champ de données choisi" et sélectionnez celui sur lequel vous souhaitez cliquer dans la liste déroulante (vous pouvez confirmer s'il est exactement l'information souhaitée dans l'aperçu des données)
  • Cliquez sur "Confirmer"

2.1.gif

Octoparse accédera automatiquement à la première page de détails.

 

 

4) Extraire des données - extraire des données sur la pages de détail

  • Sélectionnez des informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes précedentes pour extraire toutes les données dont vous avez besoin

4.gif

  • Modifiez le nom du champ de données si nécessaire

4.1.png

 

 

 

5) Configurer le temps d'attente - ralentir la vitesse de grattage

Tripadvisor peut bloquer votre adresse IP si vous y grattez trop de de données, nous devons donc contrôler la vitesse de scraping.

  • Ouvrez les paramètres d'action "Extraire les données1"
  • Cochez "Attendre avant l'action"
  • Configurez le temps d'attente entre 5s-10s

5.gif

 

6) Modifier XPath de "Cliquer les URL dans la liste"

L'action auto-générée "Cliquer les URL dans la liste" n'arrive pas toujours à cliquer sur l'URL de chaque titre, nous devons donc modifier le XPath de cette action. (Pour en savoir plus sur XPath, veuillez consulter ici)

  • Double-cliquez sur "Cliquez les URL dans la liste"
  • Cliquez sur l'icône mceclip0.png
  • Entrez XPath //A[contains(@class,"property_title prominent")]
  • Cliquez sur "OK" pour confirmer

6.gif

 

 

7) Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "enregistrer"
  • Cliquez sur "démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareilexternal-link-symbol-1.png" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloudexternal-link-symbol-1.png" pour exécuter la tâche sur le Cloud (uniquementpour les utilisateurs premium)

6.png

 

Voici l'exemple de l'exportation.

mceclip0.png

 

Cet article est-il utile? N'hésitez pas à nous contacter si vous avez besoin de notre aide!

 

 

Auteur:Yanni

Editeur:Yina

 

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter