Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici.si vous ne l'avez pas encore fait !
LinkedIn est une bonne base de données pour trouver des informations précieuses sur les emplois. Dans ce tutoriel, nous allons présenter comment récupérer des informations sur les emplois sur LinkedIn.com.
Pour suivre, vous pouvez utiliser l'URL du tutoriel :
Nous allons récupérer des données telles que les titres de postes, les entreprises, les niveaux, les types, les fonctions et les industries dans Octoparse.
Le site web applique un défilement infini couplé à un bouton "Show More" pour charger plus d'avis. Après avoir fait défiler la page jusqu'en bas environ 6 fois, un bouton "Show More" apparaît et si nous voulons continuer à charger les emplois, nous devons cliquer sur ce bouton.
Voici les principales étapes de ce tutoriel.
Go To Web Page - pour ouvrir la page Web ciblée
Configurer les paramètres de défilement - pour faire défiler la page vers le bas
Détection automatique de la page Web - pour créer un flux de travail
Cliquez sur chaque lien - pour obtenir des informations détaillées
Extraire des données - pour sélectionner les données à extraire
Modifier le XPath de l'élément de la boucle - pour localiser le bouton Afficher plus de postes
Lancer l'extraction - pour exécuter la tâche et obtenir des données
1.Go To Web Page - pour ouvrir la page Web ciblée
Entrez l'URL de la page d'accueil et cliquez sur Démarrer
2.Configurer les paramètres de défilement - pour faire défiler la page vers le bas
Dès lors que la page Web nécessite un défilement vers le bas à 6 reprises, avant d'afficher le bouton Afficher plus, vous devez configurer les paramètres de défilement pour l'action Aller à la page Web.
3.Détection automatique de la page Web - pour créer un flux de travail
Vous pouvez utiliser la page web d'auto-détection pour récupérer la liste des emplois.
Choisissez Détection automatique des données de la page Web
Attendez que la détection soit terminée
Vérifiez les champs de données dans Data Preview et supprimez les champs indésirables ou renommez les champs si nécessaire
Décochez la case "Ajouter un défilement de page" dans le panneau "Conseils"
Cliquez sur Créer un flux de travail
4.Cliquez sur chaque lien - pour obtenir des informations détaillées
Si vous voulez extraire les détails d'une offre d'emploi de chaque poste, vous devez cliquer sur l'URL de chaque offre pour charger la page de détails.
Choisissez Cliquez sur le(s) lien(s) pour extraire la(les) page(s) liée(s) dans le panneau Conseils
Choisissez Cliquez sur un champ de données extrait et sélectionnez la basecard__fulllink_URL dans le menu déroulant (vous pouvez confirmer si c'est le bon lien sur l'aperçu des données)
Cliquez sur Confirmer
Allez dans les paramètres de Click URLs dans la liste
Cliquez sur l'onglet Options
Décochez l'option Ouvrir dans un nouvel onglet
Cochez la case Charger avec AJAX et définissez le délai d'attente d'AJAX entre 5 et 7 secondes
Cliquez sur Appliquer pour confirmer
5.Extraire des données - pour sélectionner les données à extraire
Cliquez sur les informations textuelles que vous souhaitez extraire de la page
Sélectionnez Extraire le texte de l'élément sélectionné dans le panneau Conseils
Répétez les étapes jusqu'à ce que vous obteniez toutes les données à extraire
Modifiez le nom des champs de données si nécessaire
Décochez la section Extraire les données dans la boucle
Configurer le temps d'attente à 7s
6.Modifier le XPath de l'élément de la boucle - pour localiser le bouton Afficher plus de postes
Cliquez sur Loop Item
Remplacez le XPath correspondant par //button[@aria-label="Load more results"]
Cliquez sur Appliquer pour enregistrer
7.Lancer l'extraction - pour exécuter la tâche et obtenir des données
Cliquez sur Enregistrer, puis cliquez sur Exécuter dans le coin supérieur droit
Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre ordinateur
Conseil :
N'exécutez pas la tâche dans le Cloud car LinkedIn exige une connexion lorsqu'il détecte des IP suspectes.
Voici l'exemple de résultat.