LinkedIn est une bonne base de données pour trouver des informations professionnelles précieuses. Dans ce tutoriel, nous vous montrerons comment scraper des informations sur les emplois de LinkedIn.com.
Pour continuer, vous auriez besoin d'utiliser URL dans le tutoriel:
Nous collecterons des données telles que le titre du poste, l'entreprise, le niveau, le type, la fonction et l'industrie à Octoparse.
Mais avant cela, veuillez assurer d'avoir téléchargé notre dernière version 8.2 (Consultez ce guide pour télécharger: Octoparse 8.2 Beta Released!). LinkedIn n'est plus compatible avec Octoparse 7.3.0.
Le site Web applique un défilement infini associé à un "Afficher plus" pour charger plus d'avis. Après avoir fait défiler la page vers le bas comme 6 fois, un bouton "afficher plus" apparaîtrait et si nous voulons continuer à charger des travaux, nous devons cliquer sur le bouton.
Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]
- "Aller à la page Web" - ouvrir la page Web cible
- Auto-détecter la page Web - créer un flux de travail
- Cliquer sur le bouton "Afficher plus" en boucle - charger plus d'avis
- Cliquer sur chaque lien pour obtenir des informations plus détaillées
- Extraire les données - sélectionner les données pour l'extraction
- Démarrer l'extraction - exécuter la tâche et obtenir des données
1. "Aller à la page Web" - ouvrir la page Web cible
- Entrez l'URL sur la page d'accueil et cliquez sur "Démarrer"
2. Auto-détecter la page Web - créer un flux de travail
- Choisissez "Détecter automatiquement les données de la page Web"
- Attendez que la détection soit terminée
- Vérifiez les champs de données sur L'aperçu des Données, et vous pouvez également supprimer les champs indésirables ou renommer les champs.
- Cliquez sur "Modifier" sous l'option "Ajouter un défilement de page" dans le panneau Tips
- Configurez le temps d'attente entre 4-5 secondes (assurez-vous que le temps est suffisamment long pour que la page charge de nouveaux avis)
- Cliquez sur "Créer un flux de travail" dans le panneau Tips
3. Cliquer sur le bouton "Afficher plus" en boucle - charger plus d'emplois
- Choisissez "Cliquez sur un bouton" Charger plus "dans le panneau Tips
- Sélectionnez le bouton "Voir plus d'emplois" sur la page Web
- Configurez le nombre de clics selons combien de nombre d'emplois dont vous avez besoin
- Cliquez sur "Confirmer"
- Configurer AJAX Load en 5s
4. Cliquer sur chaque lien pour obtenir des informations plus détaillées
- Choisissez "Cliquez sur le (s) lien (s) pour scraper la ou les pages liées" dans le panneau Tips.
- Sélectionnez "Cliquez sur un champ de données extraites" et sélectionnez "resultcard__fullcardlink_URL" dans le menu déroulant (vous pouvez confirmer s'il est le lien correct dans l'aperçu des données)
- Cliquez sur "Confirmer"
- Cliquez sur ouvrir les paramètres d'action de la "URL de clic dans la liste"
- Décochez l'option "Ouvrir dans un nouvel onglet"
- Cochez "Charger avec AJAX" et configurez le délai d'attente AJAX entre 5-7s
- Cliquez sur "OK" pour confirmer
5. Extraire les données - sélectionner les données pour l'extraction
- Cliquez sur les données que vous souhaitez extraire sur la page
- Sélectionnez "Extraire le texte de l'élément sélectionné" dans le panneau "Astuces"
- Répétez les étapes jusqu'à ce que vous obteniez toutes les données dont vous avez besoin
- Modifiez le nom des champs de données si nécessaire
-
6. Démarrer l'extraction - exécuter la tâche et obtenir des données
- Cliquez sur "Enregistrer"
- Cliquez sur "Exécuter" dans le côté supérieur gauche
- Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud"
pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)
Voici l'exemple de production
Auteur: Lesley
Editor: Yina