Dans ce tutoriel, nous vous montrerons comment scraper les informations d'hotels de Realtor.com avec Octoparse.
Nous allons scraper des données tels que le nom, la location, la distance, le prix et le classement d'hôtels sur la page de liste avec Octoparse.
Pour continuer, vous auriez besoin d'utiliser URL dans le tutoriel:
Ce site Web applique un défilement infini combiné avec "Afficher plus" pour charger plus d'avis. Après avoir fait défiler la page vers le bas près de 2 fois, le bouton "Afficher plus" apparaîtra et vous devons continuer à cliquer sur ce bouton si vous voulez continuer à charger plus d'avis.
Voici les principales étapes de ce tutoriel:
1. Aller à la page Web - ouvrir la page Web cible
Entrez l'URL sur la page d'accueil et cliquez sur "Démarrer"
2. Auto-détecter la page Web - créer un flux de travail de base
Vous pouvez continuer avec la fonction "Auto-détecter les données de la page Web" dans le panneau Tips.
Cliquez sur "Auto-detecter les données de la page Web"
Attendez que l'auto-détection soit terminée (cela peut prendre un peu plus de temps car cette page applique un défilement infini pour charger des données)
Cliquez sur "Modifier" sous "Ajouter un défilement de page" et définissez le temps d'attente entre 5-7s
3. Cliquez sur le bouton More button - pour charger plus d'hôtels
Faites défiler la page vers le bas jusqu'à ce que vous voyiez le bouton Rechercher d'autres hôtels.
Cliquez sur Rechercher plus d'hôtels > Cliquez en boucle sur un seul élément dans les Conseils
4. Créez une page de défilement - pour extraire les informations sur les nouveaux hôtels.
Cliquez sur le bouton d'ajout d'étape dans le flux de travail pour ajouter une nouvelle étape
Sélectionnez Loop
Choisissez le mode boucle comme page de défilement
Définissez les répétitions comme 10 fois et attendez 2s pour chaque défilement
REMARQUE : Lorsque l'on clique sur le bouton "Rechercher plus d'hôtels sur Trip.com", le chargement de la page prend souvent beaucoup de temps. Il faut donc ajouter un temps d'attente avant action avant le défilement de la page.
Cliquez sur Option
Cochez Attendre avant d'agir > définissez le temps d'attente comme 10s
5. Exécutez la tâche - pour obtenir vos données cibles
Cliquez sur Enregistrer en haut à droite pour sauvegarder votre tâche.
Cliquez sur Exécuter à côté de la tâche et attendez que la fenêtre Exécuter la tâche apparaisse.
Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre appareil local.
Attendez que la tâche soit terminée