undefined

Scraper les données d'emplois sur Glassdoor

Wednesday, May 19, 2021 8:25 PM

Dans ce tutoriel, nous vous montrerons comment scraper les données d'emplois sur Glassdoor

Vous pouvez aller à "Modèles de Tâches" sur l'écran principal de l'outil de scraping Octoparse, et commencer directement avec les modèles prêts à l'emploi pour gagner du temps. Pour plus de détails, veuillez consulter ici: Modèles de Tâches

1.png

Si vous souhaitez créer la tâche à partir de zéro, veuillez suivre les étapes ci-dessous. Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel

https://www.glassdoor.com/Job/jobs.htm?suggestCount=0&suggestChosen=true&clickSource=searchBtn&typedKeyword=marketing&sc.keyword=Marketing+Manager&locT=N&locId=1&jobType

Nous allons scraper des données telles que le titre, le type, l'adresse et d'autres informations associées de chaque page de détails du poste avec Octoparse.
Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]

  1. Ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Cliquer sur chaque lien de produit pour obtenir plus d'informations
  4. Sélectionner les champs de données cibles
  5. Enregistrer et commencer à exécuter la tâche pour obtenir des données
 

1) Ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

15615615615.png

 

 

2) Auto-détecter la page Web - créer un flux de travail

  • Cliquez sur "Auto-détecter les données de page Web" et attendez la termination du processus

498549549854.gif

  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
    • Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône mceclip14.png

2.1.png

  • Cliquez sur "Créer un workflow"

2.2.png

Octoparse générerait un workflow comme celui-ci:

mceclip0.png

 

Comme la page suivante est chargée avec AJAX, nous devons configurer AJAX pour l'action "Cliquer pour paginer"

  • Ouvrez les paramètres de l'action "Cliquer pour paginer"
  • Cochez "Charger avec AJAX" et configurez le délai d'attente AJAX entre 7-10s

2.1.gif

 

Si les données dont vous avez besoin peuvent toutes être extraites de la page de liste, vous pouvez simplement passer à Enregistrer et commencer à exécuter la tâche et à obtenir des données. Si vous voulez cliquer sur chaque lien détaillé pour obtenir plus d'informations, veuillez suivre l'étape suivante.

 

 

3) Cliquer sur chaque lien de produit pour obtenir plus d'informations

  • Choisissez "Cliquez sur le(s) lien(s) pour scraper les pages liées" 
  • Sélectionnez "Cliquez sur un champ de données extrait" et sélectionnez celui sur lequel vous souhaitez cliquer dans le menu déroulant, vous pouvez confirmer s'il s'agit du lien correct dans la section d'aperçu des données
  • Cliquez sur "Confirmer"

9625956129651.gif

 

Glassdoor n'ouvre pas chaque page de détail de poste dans un nouvel onglet mais la charge avec AJAX sur la page en cours, nous devons donc modifier certains paramètres pour l'action "Cliquez sur les URL dans la liste".

3.1.gif

 

 

4) Sélectionner les champs de données cibles

  • Sélectionnez les informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes ci-dessus pour extraire toutes les données dont vous avez besoin

Tips!

S'il y a une fenêtre contextuelle sur la page Web, vous pouvez passer en mode Parcourir en cliquant sur le bouton 1495615615.png et fermer la fenêtre contextuelle manuellement. Désactivez ensuite le mode Parcourir et continuez à sélectionner des éléments sur la page Web.

 

1612562652.gif

 

  • Modifiez le nom du champ de données si nécessaire

4.1.png

 

 

5) Enregistrer et commencer à exécuter la tâche pour obtenir des données

5.png

 

Tips!

La tâche ne peut être exécutée que sur votre appareil local. Il fonctionne pas dans le Cloud en raison des paramètres d'anti-scraping de Classdoor.
 

 

 Here is the sample output. 

mceclip1.png

 

 

 

Auteur: Kara

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter