Scraper RGE des entreprises de Qualibat | Centre d'Aide

Centre d'Aide

Toutes les collections

Tutoriel sur les cas

Génération de leads

Scraper RGE des entreprises de Qualibat

Scraper RGE des entreprises de Qualibat

Mis à jour il y a plus d’une semaine

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !

Qualibat est un organisme français de qualification et de certification des entreprises du bâtiment. Un outil de web scraping peut vous aider à identifier les entreprises répondant à des critères de fiabilité. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les RGE sur Qualibat.

Avant de commencer le tutoriel, laissez-moi vous expliquer ce qu'est RGE. RGE peut signifier dans le domaine de l'économie verte et de l'écolabellisation : reconnu garant de l'environnement, un label de qualité destiné aux artisans et entreprises du bâtiment.

Vous trouverez ci-dessous un exemple d'URL pour la démonstration :

https://www.qualibat.com/rechercher/?wqq_keys=5211&qualisAction=handleQuery

1.Scraper la page de liste

2.Scraper la page de détail

1.Scraper la page de liste

Aller à la page Web - Ouvrez la page Web ciblée. Entrez l'URL de la page d'accueil et cliquez sur "start".

entrer url

Veuillez cocher le mode de Browse avant de commencer la création du flux de travail et cliquez sur "oui j'accepte tout"

cocher browse

Décocher Browse et commencez le scraping

décocher browse

Cliquer sur autodétection/autodetect webpage data

cliquer sur autodétection

choisir un résultat souhaité, et vous pouvez supprimer et renomer les éléments

supprimer et renommer les éléments

cliquer sur créer le flux de travail

cliquer sur créer le flux de travail

obenir un flux de travail

obtenir un flux de travail

Remarque:

Pour charger les données complets, veillez configurer le temps d'attente.

charger les données

Vous aurez des données de la page de la liste:

données de la page de liste

2. Scraper la page de détail

Méthode 01: créer un flux de travail

Sur la base de la tâche précédente，dans l'étape "extract data", cliquer sur "aller sur la page"→ cliquer sur "click URL"

cliquer url

Vous trouverez "click item" va être ajouté automatiquement dans le flux de travail. Cela signifie aller dans la page détaillée.

cliquer sur item

scraper les éléments manuellement ou automatiquement

extraire des données

Vous scrapez par exemple des éléments: RGE,dirigeant,date de création,chiffre d'affaires.

éléments

Remarque:

Veillez noter que la façon de renomation, utilisez des caractères de soulignement.

remarque

Vous aurez obtenir un flux de travail complet:

flux de travail complet

cliquer sur "save" et "Run"

exécuter votre tâche

Voilà des données exportés comportant la page de liste et détail:

données d'exemple

Méthode 02: extraire d'URL par lots

collecter des urls des entreprises que vous voulez scraper

collecter url

coper les urls et entrer dans la barre de Octoparse

Par exemple, vous entrez les trois urls dans la barre:

https://www.qualibat.com/entreprise/02-services-143738

https://www.qualibat.com/entreprise/1p2s-dominique-petit-132509

https://www.qualibat.com/entreprise/2b-plomberie-144187

Articles connexes

Scraper les informations de produits d'eBay

Scraper les informations sur les cyber-monnaies sur Yahoo Finance

Scraper les données hôtelières de Booking

Scraper des informations sur les offres d'emploi de Indeed

Scraper des informations des entreprises de Societe