Scraper des leads de PagesJaunes

La génération de leads est l'une des parties les plus importantes de tout processus de vente. PagesJaunes est une bonne source de données pour les entreprises de tout secteur d'activité qui souhaitent récupérer des prospects. Dans ce tutoriel, nous allons vous montrer comment extraire les leads de PagesJaunes.

Pour les PagesJaunes, vous pouvez consulter notre "Task Template" facile à utiliser sur l'écran principal de l'outil de Web Scraping Octoparse. Tout ce que vous avez à faire est de taper plusieurs paramètres, et la tâche est prête à être exécutée. Pour plus de détails, vous pouvez consulter le site ici : Modèles de Web Scraping.

Veuillez suivre les étapes ci-dessous si vous voulez savoir comment construire une tâche à partir de zéro avec Octoparse. Nous utiliserons l'URL ci-dessous pour récupérer des données telles que le titre, l'adresse, le téléphone, etc.

https://www.pagesjaunes.fr/annuaire/chercherlespros?quoiqui=ingenieur&ou=Paris+%2875%29&univers=pagesjaunes&idOu=L07505600

Voici les étapes de ce tutoriel :

1."Aller à la page Web" - Ouvrir la page Web cible

Entrez l'URL de la page d'accueil et cliquez sur "start"

2.Détecter automatiquement la page Web - créer un flux de travail

Cliquez sur "Auto-detect web page data" et attendez que la détection soit terminée

Allez dans "Data preview" pour voir si vous êtes satisfait de la sortie des données actuelles.

Supprimez les champs de données inutiles en cliquant sur l'icône de la corbeille
Modifiez directement les noms des champs de données en cliquant sur l'icône du stylo

Décochez "Add a page scroll"
Cliquez sur "Create workflow"

Si les données dont vous avez besoin peuvent être extraites de la page de liste, vous pouvez cliquer sur Configurer le temps d'attente pour ralentir la vitesse d'extraction. Si vous souhaitez cliquer sur chaque lien détaillé pour obtenir plus d'informations, veuillez suivre l'étape suivante.

3.Cliquez sur chaque lien détaillé pour extraire plus d'informations

Choisissez "Cliquer sur le(s) lien(s) pour extraire la(les) page(s) liée(s)" dans le panneau "Conseils"
Sélectionnez "Click on an extracted data field" et sélectionnez celui sur lequel vous voulez cliquer dans le menu déroulant (vous pouvez confirmer si c'est le bon lien dans l'aperçu des données).
Cliquez sur "Confirmer"

4.Extraire des données - extraire des données sur les pages détaillées

Sélectionnez les informations de la page web
Choisissez "Extract text of the element"
Répétez les étapes ci-dessus pour extraire toutes les données dont vous avez besoin
Double-cliquez sur le nom du champ pour le renommer si nécessaire

5.Configurez le temps d'attente - ralentissez la vitesse d'extraction

Dans la mesure où Yellowpages peut bloquer votre adresse IP si vous faites trop de grattage, nous devons contrôler la vitesse de grattage.

Cliquez sur l'action "Extraire les données"
Cochez "Wait before action" sous "Options"
Définissez un temps de 5s-10s

6.Commencez l'extraction - exécutez la tâche et obtenez les données

Cliquez sur "save"
Cliquez sur "Run" dans le coin supérieur gauche
Sélectionnez "Run on your device" pour exécuter la tâche sur votre ordinateur, ou sélectionnez "Run task in the Cloud" (pour les utilisateurs Premium uniquement)