undefined

Scraper les données d'hôtels d'Airbnb

Monday, May 17, 2021 9:51 AM

 

Airbnb est un bon site Web pour vous aider à trouver un hôtel idéal. Dans ce tutoriel, nous vous montrerons comment utiliser Octoparse pour obtenir des informations d'hôtels d'Airbnb.

La façon la plus facile est d'utiliser des modèles de tâches prédéfinis d'Airbnb. Ce faisant, vous n'avez plus besoin de configurer vos tâches, mais entrez simplement des mots-clés / URL et attendez les données extraites. Pour plus de détails, vous pouvez consulter ici: Modèles de tâchesexternal-link-symbol-1.png

 

0.png

 

Continuez à lire ce tutoriel si vous voulez créer la tâche à partir de zéro. Voici le l'URL de la salle Airbnb que nous utiliserons comme exemple.
https://www.airbnb.com/s/New-York--NY--United-States/homes?adults=2&search_type=pagination&s_tag=A2EV74MC&tab_id=home_tab&refinement_paths%5B%5D=%2Fhomes&children=1&place_id=ChIJOwg_06VPwokRYv534QaPC8g&federated_search_session_id=2e7da092-4a51-48db-ba26-9746f41ac068

 

Voici les étapes principales de ce tutoriel [Télécharger le fichier de tâche ici]

  1. Aller à la page Web - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Modifier les paramètres de la "Pagination"
  4. Cliquer sur chaque lien de détail pour obtenir plus d'informations
  5. Extraire des données sur la pages de détail
  6. Modifier XPath de "Cliquer sur les URL dans la liste"
  7. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

1) Aller à la page Web - ouvrir la page Web cible

  • Entrez l'URL sur la page d'accueil et cliquez sur "Démarrer"

1.png

 

 

2) Auto-détecter la page Web - créer un flux de travail

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

2.1.gif

  • Renommez ou supprimez les données dans l'Aperçu

2.2.png

  • Cliquez sur "Créer un workflow"

2.3.png

 

Octoparse générera automatiquement un flux de travail comme celui-ci:

mceclip0.png

 

 

3) Modifier les paramètres de la "Pagination"

L'auto-génération de XPath ne fonctionne pas toujours bien. Dans ce cas-là, nous deons modifier XPath de la pagination.

  • Cliquez pour ouvrir les paramètres de "Pagination"
  • Entrez XPath: //a[@aria-label="Next"]

3.1.gif

Tips!

XPath joue un rôle important pour localiser précisément les éléments dans Octoparse. Si vous voulez en savoir plus, veuillez consulter le tutoriel suivant:

Qu'est-ce que XPath et comment l'utiliser dans Octoparse

La page suivante est chargée avec AJAX, nous devons donc ajouter un délai d'attente AJAX à l'action "Cliquer pour paginer".

  • Cliquez pour ouvrir les paramètres de "Cliquez pour paginer"
  • Cochez "Charger avec AJAX"
  • Configurer le délai d'attente AJAX entre 7-10 s

3.2.gif

 

Si toutes les données dont vous avez besoin peuvent être extraites de la page de liste, vous pouvez vous arrêter ici et passer à Exécuter votre tâche - obtenir les données dont vous avez besoin. Si vous souhaitez accéder à chaque page de détail de produits pour obtenir plus d'informations, suivez les étapes ci-dessous.

 

 

4) Cliquer sur chaque lien de détail pour obtenir plus d'informations

  • Choisissez "Cliquez sur le(s) lien(s) pour scraper les pages liées" dans le panneau Tips
  • Sélectionnez "Cliquer sur le champ de données choisi" et sélectionnez celui sur lequel vous souhaitez cliquer dans la liste déroulante (vous pouvez confirmer s'il est exactement l'information souhaitée dans l'aperçu des données)
  • Cliquez sur "Confirmer"

4.1.gif

 

Octoparse accédera automatiquement à la première page de détails.

 

 

5) Extraire des données sur la pages de détail

  • Selectionnez les informations souhaitées sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes précedentes pour extraire toutes les données dont vous avez besoin

4.2.gif

  • Renommez le champ de données si nécessaire
  • 4.3.png
  • Ouvrez les paramètres d'action "Extraire les données1"
  • Cochez "Attendre avant l'action"
  • Configurez le délai d'attente AJAX entre 7-10 s

5.2.gif

 

 

6) Modifier XPath de "Cliquer sur les URL dans la liste"

L'action auto-générée "Cliquer les URL dans la liste" ne marche pas bien dans ce cas, nous devons donc modifier le XPath pour qu'elle puis fonctionner. 

  • Ouvrez les paramètres de "Cliquer sur URL dans la liste"
  • Cliquez surmceclip2.png
  • Entrez XPath: /descendant-or-self::A[contains(@class,"_gjfol0")]
  • Cliquez "OK" pour confirmer5.1.gif
 

 

7) Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareilexternal-link-symbol-1.png" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloudexternal-link-symbol-1.png"pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

4.4.png

 

Voici l'exemple de l'exportation.

mceclip1.png

 

Tutorial en español:  Scrapear detalles de hoteles de Airbnb

También puedes leer más artículos de web scraping en el sitio web oficial

 

Auteur: Fergus

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter