Scraper RGE des entreprises de Qualibat
Mis à jour il y a plus d’une semaine

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !

Qualibat est un organisme français de qualification et de certification des entreprises du bâtiment. Un outil de web scraping peut vous aider à identifier les entreprises répondant à des critères de fiabilité. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les RGE sur Qualibat.

Avant de commencer le tutoriel, laissez-moi vous expliquer ce qu'est RGE. RGE peut signifier dans le domaine de l'économie verte et de l'écolabellisation : reconnu garant de l'environnement, un label de qualité destiné aux artisans et entreprises du bâtiment.

Vous trouverez ci-dessous un exemple d'URL pour la démonstration :


1.Scraper la page de liste

  • Aller à la page Web - Ouvrez la page Web ciblée. Entrez l'URL de la page d'accueil et cliquez sur "start".

entrer url

  • Veuillez cocher le mode de Browse avant de commencer la création du flux de travail et cliquez sur "oui j'accepte tout"

cocher browse

  • Décocher Browse et commencez le scraping

décocher browse

  • Cliquer sur autodétection/autodetect webpage data

cliquer sur autodétection
  • choisir un résultat souhaité, et vous pouvez supprimer et renomer les éléments

  • choisir un résultat souhaité
supprimer et renommer les éléments

  • cliquer sur créer le flux de travail

cliquer sur créer le flux de travail

  • obenir un flux de travail

obtenir un flux de travail

Remarque:

Pour charger les données complets, veillez configurer le temps d'attente.

charger les données

Vous aurez des données de la page de la liste:

données de la page de liste


2. Scraper la page de détail

Méthode 01: créer un flux de travail

  • Sur la base de la tâche précédente,dans l'étape "extract data", cliquer sur "aller sur la page"→ cliquer sur "click URL"

cliquer url
  • Vous trouverez "click item" va être ajouté automatiquement dans le flux de travail. Cela signifie aller dans la page détaillée.

cliquer sur item

  • scraper les éléments manuellement ou automatiquement

extraire des données

Vous scrapez par exemple des éléments: RGE,dirigeant,date de création,chiffre d'affaires.

éléments

Remarque:

Veillez noter que la façon de renomation, utilisez des caractères de soulignement.

remarque

Vous aurez obtenir un flux de travail complet:

flux de travail complet

  • cliquer sur "save" et "Run"

exécuter votre tâche

Voilà des données exportés comportant la page de liste et détail:

données d'exemple

Méthode 02: extraire d'URL par lots

  • collecter des urls des entreprises que vous voulez scraper

collecter url

  • coper les urls et entrer dans la barre de Octoparse

Par exemple, vous entrez les trois urls dans la barre:

Avez-vous trouvé la réponse à votre question ?