Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !
Qualibat est un organisme français de qualification et de certification des entreprises du bâtiment. Un outil de web scraping peut vous aider à identifier les entreprises répondant à des critères de fiabilité. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les RGE sur Qualibat.
Avant de commencer le tutoriel, laissez-moi vous expliquer ce qu'est RGE. RGE peut signifier dans le domaine de l'économie verte et de l'écolabellisation : reconnu garant de l'environnement, un label de qualité destiné aux artisans et entreprises du bâtiment.
Vous trouverez ci-dessous un exemple d'URL pour la démonstration :
1.Scraper la page de liste
Aller à la page Web - Ouvrez la page Web ciblée. Entrez l'URL de la page d'accueil et cliquez sur "start".
Veuillez cocher le mode de Browse avant de commencer la création du flux de travail et cliquez sur "oui j'accepte tout"
Décocher Browse et commencez le scraping
Cliquer sur autodétection/autodetect webpage data
choisir un résultat souhaité, et vous pouvez supprimer et renomer les éléments
cliquer sur créer le flux de travail
obenir un flux de travail
Remarque:
Pour charger les données complets, veillez configurer le temps d'attente.
Vous aurez des données de la page de la liste:
2. Scraper la page de détail
Méthode 01: créer un flux de travail
Sur la base de la tâche précédente,dans l'étape "extract data", cliquer sur "aller sur la page"→ cliquer sur "click URL"
Vous trouverez "click item" va être ajouté automatiquement dans le flux de travail. Cela signifie aller dans la page détaillée.
scraper les éléments manuellement ou automatiquement
Vous scrapez par exemple des éléments: RGE,dirigeant,date de création,chiffre d'affaires.
Remarque:
Veillez noter que la façon de renomation, utilisez des caractères de soulignement.
Vous aurez obtenir un flux de travail complet:
cliquer sur "save" et "Run"
Voilà des données exportés comportant la page de liste et détail:
Méthode 02: extraire d'URL par lots
collecter des urls des entreprises que vous voulez scraper
coper les urls et entrer dans la barre de Octoparse
Par exemple, vous entrez les trois urls dans la barre: