Scraper RGE des entreprises de Qualibat
Tuesday, August 23, 2022 12:07 PMVous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !
Qualibat est un organisme français de qualification et de certification des entreprises du bâtiment. Un outil de web scraping peut vous aider à identifier les entreprises répondant à des critères de fiabilité. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les RGE sur Qualibat.
Avant de commencer le tutoriel, laissez-moi vous expliquer ce qu'est RGE. RGE peut signifier dans le domaine de l'économie verte et de l'écolabellisation : reconnu garant de l'environnement, un label de qualité destiné aux artisans et entreprises du bâtiment.
Vous trouverez ci-dessous un exemple d'URL pour la démonstration :
https://www.qualibat.com/rechercher/?wqq_keys=5211&qualisAction=handleQuery
Table des Matières:
1.Scraper la page de liste
- Aller à la page Web - Ouvrez la page Web ciblée. Entrez l'URL de la page d'accueil et cliquez sur "start".
- Veuillez cocher le mode de Browse avant de commencer la création du flux de travail et cliquez sur "oui j'accepte tout"
- Décocher Browse et commencez le scraping
- Cliquer sur autodétection/autodetect webpage data
- choisir un résultat souhaité, et vous pouvez supprimer et renomer les éléments
- cliquer sur créer le flux de travail
- obenir un flux de travail
Remarque:
Pour charger les données complets, veillez configurer le temps d'attente.
Vous aurez des données de la page de la liste:
2. Scraper la page de détail
Méthode 01: créer un flux de travail
- Sur la base de la tâche précédente,dans l'étape "extract data", cliquer sur "aller sur la page"→ cliquer sur "click URL"
Vous trouverez "click item" va être ajouté automatiquement dans le flux de travail. Cela signifie aller dans la page détaillée.
- scraper les éléments manuellement ou automatiquement
Vous scrapez par exemple des éléments: RGE,dirigeant,date de création,chiffre d'affaires.
Remarque:
Veillez noter que la façon de renomation, utilisez des caractères de soulignement.
Vous aurez obtenir un flux de travail complet:
- cliquer sur "save" et "Run"
Voilà des données exportés comportant la page de liste et détail:
Méthode 02: extraire d'URL par lots
- collecter des urls des entreprises que vous voulez scraper
- coper les urls et entrer dans la barre de Octoparse
Par exemple, vous entrez les trois urls dans la barre:
https://www.qualibat.com/entreprise/02-services-143738
https://www.qualibat.com/entreprise/1p2s-dominique-petit-132509
https://www.qualibat.com/entreprise/2b-plomberie-144187
- Méthode de collecte comme ci-dessus
Allez-y, créer votre première tâche! contactez notre équipe de support.
Scraper les informations sur les produits de Cdiscount
Scraper les données d'hôtels d'Airbnb
Scraper les informations d'entreprises sur Google Maps
Scraper les données des hôtels sur Tripadvisor