undefined
Blog > Web Scraping > Post

Un guide complet des offres d'emploi de Web Scraping

Tuesday, September 14, 2021

  

Pourquoi les données sur l'emploi?

Au fil des années de travail dans l'industrie du Web scraping et de la discussion avec des utilisateurs du monde entier, les données sur les emplois se démarquent comme l'une des informations les plus recherchées sur le Web. Honnêtement, j'étais un peu dépassé jusqu'à ce que je tombe sur Le rapport Gallup 2017 State of the American Workplace qui déclarait que 51% des adultes actuellement employés recherchent un nouvel emploi ou recherchent de nouvelles opportunités de travail et 58% des demandeurs d'emploi recherchent un emploi en ligne, en un autre mot, ce marché est énorme. Dans le même temps, j'ai également été surpris de découvrir qu'il existe tant de façons d'utiliser les données d'emploi, pour n'en nommer que quelques-unes:

 

  • Alimenter les sites d'agrégation d'emplois avec de nouvelles données sur les emplois.
  • Collecte de données pour analyser les tendances de l'emploi et le marché du travail.
  • Suivi des positions ouvertes, des compensations et des avantages sociaux des concurrents pour vous donner une longueur d'avance.
  • Trouver des prospects en présentant votre service aux entreprises qui embauchent pour la même chose.
  • Les agences de dotation grattent les sites d'emploi pour garder leurs bases de données d'emplois à jour.

 

Et croyez-moi, ce ne sont que la pointe d'un iceberg. Cela dit, gratter les offres d'emploi n'est pas toujours la chose la plus simple à faire.

 

Challenges liés à la récupération des offres d'emploi:

Tout d'abord, vous devrez décider où extraire ces informations. Il existe deux principaux types de sources de données sur les emplois:

  1. Les principaux sites d'agrégation d'emplois comme Indeed, Monster, Naukri, ZipRecruiter, Glassdoor, Craiglist, LinkedIn, SimplyHired, reed.co.uk, Jobster, Dice, Facebook jobs, etc.
  2. Chaque entreprise, grande ou petite, a une section carrière sur ses sites Web. Le fait de gratter ces pages régulièrement peut vous donner la liste la plus mis à jour des offres d'emploi.

 

[Lectures complémentaires: 70 Amazing Free Data Sources You Should Know]


Ensuite, vous aurez besoin d'un web scraper pour l'un des sites Web mentionnés ci-dessus. Les grands portails d'emplois peuvent être extrêmement difficiles à gratter car ils mettront presque toujours en œuvre des techniques anti-scraping pour empêcher les robots de grattage de collecter des informations sur eux. Certains des blocs les plus courants incluent les blocages IP, le suivi des activités de navigation suspectes, les pièges du pot de miel ou l'utilisation de Captcha pour éviter les visites excessives de pages. Si vous êtes intéressé, cet article fournit de bonnes informations sur la façon de contourner certains des blocs anti-grattage les plus courants. Au contraire, les sections de carrière de l'entreprise sont généralement plus faciles à gratter. Pourtant, comme chaque entreprise a sa propre interface Web / site Web, il faut configurer un crawler pour chaque entreprise séparément. De telle sorte que non seulement le coût initial est élevé, mais il est également difficile de maintenir les crawlers car les sites Web subissent des modifications assez souvent.

 

Quelles sont les options de récupération des données sur l'emploi?

Il existe quelques options pour extraire des offres d'emploi sur le Web.


1. Recrutement d'un service de web scraping (Daas)

Ces sociétés fournissent ce que l'on appelle généralement des «services gérés». Certains fournisseurs de Web scraping bien connus sont Scrapinghub, Datahen, Data Hero, etc. Ils prendront en charge vos demandes et mettront en place tout ce qui est nécessaire pour faire le travail, comme les scripts, les serveurs, les proxys IP, etc. Les données vous seront fournies dans le format et les fréquences requis. Les services de grattage facturent généralement en fonction du nombre de sites Web, de la quantité de données à récupérer et de la fréquence de l'exploration. Certaines entreprises facturent des frais supplémentaires pour le nombre de champs de données et le stockage des données. La complexité du site Web est, bien entendu, un facteur majeur qui aurait pu affecter le prix final. Pour chaque configuration de site Web, il y a généralement des frais de configuration uniques et des frais de maintenance mensuels.

 

Avantages:

  1. Aucune courbe d'apprentissage. Les données vous sont livrées directement.
  2. Hautement personnalisable et adapté à vos besoins.
 
Désavantages:
  1. Le coût peut être élevé, notamment si vous avez beaucoup de sites Web à scraper (350 $ ~ 2500 $ par projet + 60 $ ~ 500 $ de frais de maintenance mensuels).
  2. Les coûts d'entretien à long terme peuvent causer une spirale incontrôlable du budget
  3. Temps de développement étendu car chaque site Web devra être configuré dans son intégralité (3 à 10 jours ouvrables par site).
     

 

2. Configuration interne du Web scraping 

Faire du Web scraping en interne avec votre propre équipe technique et vos propres ressources comporte ses avantages et ses désavantages.

 

Avantages:

  1. Contrôle complet du processus de crawling.
  2. Moins de challenges de communication, un délai d'exécution plus rapide.
Désavantages:
  1. Coût élevé. Une troupe de technologies coûte cher (jusqu'à 20 fois plus d'après ce que j'ai entendu).
  2.  Moins d'expertise. Le Web scraping est un processus de niche qui nécessite un haut niveau de compétences techniques, surtout si vous devez extraire certains des sites Web les plus populaires ou si vous devez extraire une grande quantité de données régulièrement. Partir de zéro est difficile même si vous embauchez des professionnels, alors que les fournisseurs de services de données, ainsi que les outils de grattage, devraient être plus expérimentés pour s'attaquer aux obstacles imprévus.
  1. Perte de concentration. Pourquoi ne pas consacrer plus de temps et d'énergie à la croissance de votre entreprise?
  2. Exigences d'infrastructure. Posséder le processus de crawling signifie également que vous devrez obtenir les serveurs pour exécuter les scripts, le stockage des données et le transfert. Il y a aussi de fortes chances que vous ayez besoin d'un fournisseur de services proxy et d'un solveur Captcha tiers. Le processus de mise en place et de maintien de tous ces éléments au quotidien peut être extrêmement fatigant et inefficace.
     
  3. Problème d'entretien. Les scripts doivent être mis à jour ou même réécrits tout le temps car ils se cassent chaque fois que les sites Web mettent à jour des mises en page ou des codes.
     
  4. Risques juridiques. Le Web scraping est légal dans la plupart des cas, bien qu'il y ait beaucoup de débats et même les lois ne s'étaient pas explicitement appliquées d'un côté ou de l'autre. En générale, les informations publiques peuvent être récupérées en toute sécurité et si vous voulez être plus prudent à ce sujet, vérifiez et évitez d'enfreindre les TOS (conditions de service) du site Web. Cela dit, si cela devenait un problème, l'embauche d'une autre entreprise / personne pour faire le travail réduira sûrement le niveau de risque qui y est associé.
     

 

3. Utilisation d'un outil de Web scraping 

Les technologies progressent et comme toute autre chose, le web scraping peut désormais être automatisé. Il existe de nombreux logiciels de Web scraping conçus pour que les personnes non techniques puissent récupérer des données sur le Web. Ces soi-disant web scrapers ou extracteurs web traversent le site web et capturent les données désignées en déchiffrant la structure HTML de la page web. Vous pourrez "dire" au grattoir ce dont vous avez besoin grâce à des "glissements" et des "clics". Le programme apprend ce dont vous avez besoin grâce à son algorithme intégré et effectue le  scraping automatiquement. La plupart des outils de scraping peuvent être programmés pour une extraction régulière et peuvent être intégrés à votre propre système.

[Lectures complémentaires: Top 30 des logiciels de Web Scraping gratuits]

Avantages:
  1. Économique. La plupart des outils de Web scraping  prennent en charge les paiements mensuels (60 $ ~ 200 $ par mois) et certains proposent même des formules gratuits qui sont assez robustes (comme celui que j'utilise).
  2. Sans-codage convivial. La plupart d'entre eux sont relativement faciles à utiliser et peuvent être manipulés par des personnes ayant peu ou pas de connaissances techniques. Si vous souhaitez gagner du temps, certains fournisseurs proposent des services de configuration des crawlers ainsi que des sessions de formation. 
  3. Évolutif. Supporte des projets de toutes tailles facilement, d'un à des milliers de sites Web. Passez à l'échelle au fur et à mesure. 
  4. Délai d'exécution rapide. Selons vos efforts, un crawler peut être construit en 10 minutes. 
  5. Contrôle complet. Une fois que vous avez appris le processus, vous pouvez configurer plus de crawlers ou modifier ceux existants sans demander l'aide de l'équipe technique ou du fournisseur de services.
  6. Faible coût de maintenance. Comme vous n'aurez plus besoin d'une troupe de technologie pour réparer les crawlers, vous pouvez facilement contrôler les coûts de maintenance.
     

Désavantages:

  1. Courbe d'apprentissage. Selon le produit que vous choisissez, cela peut prendre un peu de temps pour apprendre le processus. Les scrapers virtuels tels que import.io, dexi.io et Octoparse sont plus faciles à apprendre.
  2. Compatibilité. Tous les outils de Web scraping prétendent couvrir des sites de toutes sortes, mais la vérité est qu'il n'y aura jamais de compatibilité à 100% lorsque vous essayez d'appliquer un outil à des millions de sites Web.
     
  3. Captcha. La plupart des outils de Web scraping ne peuvent pas résoudre Captcha.
     

 

Un vrai exemple de web scraping ...

Afin de rendre cet article plus utile pour vous, j'ai décidé de vous donner un petit tutoriel sur la façon de scraper Indeed en utilisant mon outil de scraping préféré de tous les temps, Octoparse. Dans cet exemple, je vais rassembler quelques informations de base pour les scientifiques des données de New York.
 

 

Données à extraire

  • Titre d'emploi
  • Lieu de travail
  • Nom de l'employeur
  • Description de l'emploi
  • Nombre d'avis
  • L'URL de la page

 

 

Prémisse

Téléchargez Octoparse et installez-le. Il serait préférable que vous connaissiez comment L'Octoparse fonctionne en général. Consultez Octoparse Scraping 101 si vous êtes nouveau dans l'outil.
 

Créer un projet de scraping

 

1. Lancez Octoparse et créez un nouveau projet en cliquant sur "+ Tâche" sous Mode Avancé

2.Entrez l'URL cible (https://www.indeed.com/jobs?q=Data%20Scientist&l=New%20York%20State&_ga=2.92303069.138961637.1571107168-1638621315.1571107168) dans la zone de URL. C'est l'URL copiée à partir de Chrome lors de la recherche de "data scientists" à proximité de "New York" sur Indeed.com. Cliquez sur "Enregistrer l'URL" pour continuer.

 

 

 

Conseils:

Quand j'utilise un moniteur 17 ", j'aime toujours passer en mode plein écran en basculant le bouton de flux de travail en haut. Cela me donne une meilleure vue de la page Web.

3. Cliquez sur le premier titre du poste. Ensuite, cliquez sur le deuxième titre du poste (ou tout autre titre de poste fera l'affaire).


 

4. Suivez les instructions fournies sur "Conseils d'action", qui lit maintenant "10 éléments sélectionnés". Je veux évidemment cliquer sur ouvrir chacun des titres sélectionnés, il est donc logique de sélectionner "Boucle cliquez sur chaque élément".


 

 

Conseils:

N'importe quand vous avez créé une boucle est créée, une liste à parcourir et ajoutée au flux de travail avec succès.Revenez au mode de flux de travail et voyez si c'est le cas pour vous.

5. Actuellement, je suis sur la page emploi, je vais extraire les données dont j'ai besoin en cliquant dessus. Cliquez sur le titre du poste, l'emplacement, le nombre d'avis, le nom de l'entreprise et la description du poste.
 

 

6. Une fois terminé la sélection des champs nécessaires, cliquez sur "Extraire les données" dans les "Conseils d'action".

7. Ensuite, capturer l'URL de la page en ajoutant un champ prédéfini.

  • Accédez au flux de travail de la tâche en basculant le bouton de flux de travail en haut. 
  • Avec l'étape "Extraire les données" du workflow sélectionnée, cliquez sur "Ajouter un champ prédéfini"
  • Sélectionnez "Ajouter les informations de la page actuelle", puis "URL de la page Web". Cela obtiendra l'URL de la page récupérée avec tous les autres champs de données.

 

 extract job board page URL in Octoparse

Conseils:
Octoparse générera automatiquement des noms de champs pour les champs de données capturés. Si vous avez besoin de renommer les champs de données, tapez simplement au-dessus des champs actuels.
 

8.Jusqu'à présent, j'ai réussi à extraire tous les emplois répertoriés sur la première page, mais je voudrais certainement extraire plus de pages. Pour ce faire, je vais mettre en place la pagination, c'est à dire. demandez à Octoparse de parcourir les différents numéros de page.
 

  • Retournez à la page des résultats de la recherche en cliquant sur l'élément de boucle du workflow. 
  • Défilez la page et trouvez le bouton "Suivant", cliquez dessus. 
  • Sélectionnez "Loop click single element" sur "Action Tips". Octoparse cliquera sur le bouton «Suivant» jusqu'à ce qu'il atteigne la dernière page (lorsque «Suivant» ne se trouve plus sur la page).
     

scrape jobs across pages in Octoparse

 

Conseils: 

Vous pouvez également spécifier le nombre de pages à extraire. Par exemple, si vous souhaitez extraire uniquement les 3 premières pages, entrez le numéro " 2" pour " Terminer la boucle lorsque le temps d'exécution atteint X" . De cette façon, Octoparse ne pagine que 2 fois et se termine lorsqu'il atteint la page 3.
 

9. Dès que j'atteins la page 2, j'ai remarqué que l'élément "Suivant" n'est plus détecté correctement car le XPath généré automatiquement suit désormais le bouton "Précédent" à la place. Pour le résoudre, je vais devoir modifier manuellement le XPath .

  • Avec la boucle de pagination sélectionnée, changez le XPath de l'élément unique en // SPAN [contains (text (), 'Next')].
  • Maintenant, Nous avons  détecté le bon bouton "Suivant".

Conseil:

Découvrez comment modifier XPath en cas d'échec du XPath généré automatiquement:  

 

10. C'est ça. Vous avez terminé. Cliquez sur le bouton "Extraire les données" en haut pour exécuter la tâche.


 

 

Conseil:

Veuillez noter que si vous souhaitez essayer d'autres sites de recrutement (par exemple glassdoor.com), il vous suffit de consulter cet article!

 

 En conclusion

En bref, il y aura sûrement des avantages et des désavantages avec l'une des options que vous choisissez. La bonne approche doit être celle qui correspond à vos besoins spécifiques (calendrier, budget, taille du projet, etc.). De toute évidence, une solution qui fonctionne bien pour les entreprises du Fortune 500 peut ne pas fonctionner pour un étudiant. Cela dit, pesez sur tous les avantages et inconvénients des différentes options et, surtout, testez complètement la solution avant de vous engager dans une.

 

Artículo en español: Una guía completa para las publicaciones de trabajos de web scraping
También puede leer artículos de web scraping en El Website Oficial

 

Ressources associées

 

 

Tutoriel: Scrapez les informations sur les travaux depuis Indeed

La génération de pistes de vente en utilisant le web scraping

Big Data: Extraction de données sur Facebook

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter