Toutes les collections
Tutoriel sur les cas
Emplois
Scraper les offres d'emploi de LinkedIn
Scraper les offres d'emploi de LinkedIn

Récupérer les postes de LinkedIn: le titre,l'url,la location etc.

Mis à jour il y a plus d’une semaine

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici.si vous ne l'avez pas encore fait !

LinkedIn est une bonne base de données pour trouver des informations précieuses sur les emplois. Dans ce tutoriel, nous allons présenter comment récupérer des informations sur les emplois sur LinkedIn.com.

Pour suivre, vous pouvez utiliser l'URL du tutoriel :

Nous allons récupérer des données telles que les titres de postes, les entreprises, les niveaux, les types, les fonctions et les industries dans Octoparse.

Le site web applique un défilement infini couplé à un bouton "Show More" pour charger plus d'avis. Après avoir fait défiler la page jusqu'en bas environ 6 fois, un bouton "Show More" apparaît et si nous voulons continuer à charger les emplois, nous devons cliquer sur ce bouton.

Voici les principales étapes de ce tutoriel.

  • Go To Web Page - pour ouvrir la page Web ciblée

  • Configurer les paramètres de défilement - pour faire défiler la page vers le bas

  • Détection automatique de la page Web - pour créer un flux de travail

  • Cliquez sur chaque lien - pour obtenir des informations détaillées

  • Extraire des données - pour sélectionner les données à extraire

  • Modifier le XPath de l'élément de la boucle - pour localiser le bouton Afficher plus de postes

  • Lancer l'extraction - pour exécuter la tâche et obtenir des données

1.Go To Web Page - pour ouvrir la page Web ciblée

Entrez l'URL de la page d'accueil et cliquez sur Démarrer

entrer url

2.Configurer les paramètres de défilement - pour faire défiler la page vers le bas

Dès lors que la page Web nécessite un défilement vers le bas à 6 reprises, avant d'afficher le bouton Afficher plus, vous devez configurer les paramètres de défilement pour l'action Aller à la page Web.

défilement

3.Détection automatique de la page Web - pour créer un flux de travail

Vous pouvez utiliser la page web d'auto-détection pour récupérer la liste des emplois.

  • Choisissez Détection automatique des données de la page Web

auto-detection

  • Attendez que la détection soit terminée

  • Vérifiez les champs de données dans Data Preview et supprimez les champs indésirables ou renommez les champs si nécessaire

data preview

  • Décochez la case "Ajouter un défilement de page" dans le panneau "Conseils"

  • Cliquez sur Créer un flux de travail

créer workflow

4.Cliquez sur chaque lien - pour obtenir des informations détaillées

Si vous voulez extraire les détails d'une offre d'emploi de chaque poste, vous devez cliquer sur l'URL de chaque offre pour charger la page de détails.

  • Choisissez Cliquez sur le(s) lien(s) pour extraire la(les) page(s) liée(s) dans le panneau Conseils

  • Choisissez Cliquez sur un champ de données extrait et sélectionnez la basecard__fulllink_URL dans le menu déroulant (vous pouvez confirmer si c'est le bon lien sur l'aperçu des données)

  • Cliquez sur Confirmer

cliquer sur les liens
  • Allez dans les paramètres de Click URLs dans la liste

  • Cliquez sur l'onglet Options

  • Décochez l'option Ouvrir dans un nouvel onglet

  • Cochez la case Charger avec AJAX et définissez le délai d'attente d'AJAX entre 5 et 7 secondes

  • Cliquez sur Appliquer pour confirmer

configuration de ajax

5.Extraire des données - pour sélectionner les données à extraire

  • Cliquez sur les informations textuelles que vous souhaitez extraire de la page

  • Sélectionnez Extraire le texte de l'élément sélectionné dans le panneau Conseils

  • Répétez les étapes jusqu'à ce que vous obteniez toutes les données à extraire

extraire les données
  • Modifiez le nom des champs de données si nécessaire

modification le nom
  • Décochez la section Extraire les données dans la boucle

décocher le loop

  • Configurer le temps d'attente à 7s

temps d'attente

6.Modifier le XPath de l'élément de la boucle - pour localiser le bouton Afficher plus de postes

  • Cliquez sur Loop Item

  • Remplacez le XPath correspondant par //button[@aria-label="Load more results"]

  • Cliquez sur Appliquer pour enregistrer

charger plus

7.Lancer l'extraction - pour exécuter la tâche et obtenir des données

  • Cliquez sur Enregistrer, puis cliquez sur Exécuter dans le coin supérieur droit

  • Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre ordinateur


Conseil :

N'exécutez pas la tâche dans le Cloud car LinkedIn exige une connexion lorsqu'il détecte des IP suspectes.

Voici l'exemple de résultat.

exemple de résultat

Avez-vous trouvé la réponse à votre question ?