undefined

Scraper RGE des entreprises de Qualibat

Tuesday, August 23, 2022 12:07 PM

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste !  Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !

 

 

Qualibat est un organisme français de qualification et de certification des entreprises du bâtiment. Un outil de web scraping peut vous aider à identifier les entreprises répondant à des critères de fiabilité. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les RGE sur Qualibat.

Avant de commencer le tutoriel, laissez-moi vous expliquer ce qu'est RGE. RGE peut signifier dans le domaine de l'économie verte et de l'écolabellisation : reconnu garant de l'environnement, un label de qualité destiné aux artisans et entreprises du bâtiment.

 

Vous trouverez ci-dessous un exemple d'URL pour la démonstration : 

https://www.qualibat.com/rechercher/?wqq_keys=5211&qualisAction=handleQuery

 

 

 

 

1.Scraper la page de liste

  •  Aller à la page Web - Ouvrez la page Web ciblée. Entrez l'URL de la page d'accueil et cliquez sur "start".

entrer url

 

 

  • Veuillez cocher le mode de Browse avant de commencer la création du flux de travail et cliquez sur "oui j'accepte tout"

cocher browse

 

 

  • Décocher Browse et commencez le scraping

 

décocher browse

 

 

  •  Cliquer sur autodétection/autodetect webpage data

cliquer sur autodétection

  • choisir un résultat souhaité, et vous pouvez supprimer et renomer les éléments  
  • choisir un résultat souhaité

supprimer et renommer les éléments

 

  • cliquer sur créer le flux de travail 

cliquer sur créer le flux de travail

  • obenir un flux de travail

obtenir un flux de travail

 

 

Remarque:

Pour charger les données complets, veillez configurer le temps d'attente.

charger les données

 

 

Vous aurez des données de la page de la liste:

données de la page de liste

 

 

2. Scraper la page de détail

 

Méthode 01: créer un flux de travail 

 

  • Sur la base de la tâche précédente,dans l'étape "extract data", cliquer sur "aller sur la page"→ cliquer sur "click URL"

cliquer url

 

 Vous trouverez "click item" va être ajouté automatiquement dans le flux de travail. Cela signifie aller dans la page détaillée.

cliquer sur item

  •  scraper les éléments manuellement ou automatiquement 

extraire des données

 

 

Vous scrapez par exemple des éléments: RGE,dirigeant,date de création,chiffre d'affaires.

éléments

 

 

 

 

Remarque:

Veillez noter que la façon de renomation, utilisez des caractères de soulignement.

remarque

 

 

 Vous aurez obtenir un flux de travail complet:

flux de travail complet

 

  •  cliquer sur "save" et "Run"

exécuter votre tâche

 

 

 

Voilà des données exportés comportant la page de liste et détail:

 données d'exemple

 

 

 

 

 

 

Méthode 02: extraire d'URL par lots

  • collecter des urls des entreprises que vous voulez scraper

collecter url

 

 

  •  coper les urls et entrer dans la barre de Octoparse

Par exemple, vous entrez les trois urls dans la barre:

https://www.qualibat.com/entreprise/02-services-143738

https://www.qualibat.com/entreprise/1p2s-dominique-petit-132509

https://www.qualibat.com/entreprise/2b-plomberie-144187

 

 

  • Méthode de collecte comme ci-dessus

 

 

 Allez-y, créer votre première tâche! Si vous souhaitez contacter un expert, pour une information, démonstration, contactez notre équipe de support.

 

 

 

 

 

autre articles:

Scraper les informations sur les produits de Cdiscount

Scraper les données d'hôtels d'Airbnb

Scraper les informations d'entreprises sur Google Maps

Scraper les données des hôtels sur Tripadvisor

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter