Scraper les informations d'emplois de LinkedIn
Wednesday, May 19, 2021 8:24 PMLinkedIn est une bonne ressource pour obtenir des informations de différentes entreprises. Dans ce tutoriel, nous allons vous montrer comment y récupérer les publications.
Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:
https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL
Avant de commencer, assurez-vous d'avoir téléchargé notre dernière version 8.1 (Consultez ce guide pour télécharger Actualités: Octoparse 8.1 Beta est sorti! ). LinkedIn n'est plus compatible avec Octoparse 7.3.0.
Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]
- "Aller à la page Web" - ouvrir la page Web cible
- Se connecter au site Web
- Auto-détecter la page Web - créer un flux de travail
- Extraire les données - sélectionner les données que vous devez extraire (facultatif)
- Exécuter la tâche pour obtenir les données que vous voulezs
1. "Aller à la page Web" - ouvrir la page Web cible
- Entrez l'URL dans la barre de recherche
- Cliquez sur "Démarrer" pour commencer une nouvelle tâche
2. Se connecter au site Web
On est obligé de se connecter avant d'accéder aux données de LinkedIn. Dans ce cas-là, nous utiliserons la méthode "Enregistrer les cookies" pour vous démonstrer.
- Activez l'action"Auto-détecter les données de la page Web" pour vous aider à configurer la tâche
- Après l'auto-détection, cliquez sur "Pas la bonne page Web?"
- Puis, choisissez "Se connecter au site Web"
Après avoir cliqué sur "Se connecter au site Web", vous êtes maintenant sous le "Mode de navigation". Vous pouvez naviguer sur la page comme dans un navigateur ordinaire. Les actions que vous effectuez ne seront pas inclues dans les étapes du flux de travail.
Étant donné que c'est une page d'inscription, vous devez cliquer sur "Se connecter" pour accéder à la page de connexion (vous pouvez l'ignorer si vous êtes déjà sur la page de connexion).
- Entrez les détails de votre compte LinkedIn, puis cliquez sur "Se connecter" pour vous connecter
- Maintenant, vous êtes connecté à votre compte. La page sera tournée vers celle que nous entrons (https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL).
- Cliquez sur "Terminé" dans le panneau Tips
Vous verrez une remarque en haut indiquant "Cookies enregistrés".
Puis, vous pouvez commencer à récupérer les données dont vous avez besoin.
Tips! Octoparse offre de différentes méthodes pour traiter les données après la connexion. Vous pouvez en savoir plus dans ce tutoriel pour ajouter des étapes de connexion au flux de travail: Scraper les données après la connexion |
3. Auto-détecter la page Web - créer un flux de travail
Vous pouvez continuer avec la fonctionnalité "Auto-détecter les données de la page Web" dans le panneau Tips.
- Cliquez sur "Auto-détecter les données de la page Web"
- Attendez que l'au-détection se termine (cela peut prendre un peu plus de temps car ce site applique un défilement infinitif vers le bas pour charger la page)
- Cliquez sur "Modifier" sous "Ajouter un défilement de page" pour voir si vous avez besoin d'ajuster le temps de défilement de pages.
- Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
- Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône
- Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône
- Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône
- Si vous êtes content du format actuel des données, cliquez sur "Créer un workflow"
Et un flux de travail sera généré comme ci-dessous.
Tips! Le défilement des pages a été largement appliqué sur différents sites Web dans Octoparse. Pour gérer ce type de sites Web, vous pouvez soit utiliser la fonctionnalité "Auto-détection" pour vous aider, soit configurer en vous-même le défilement de la page en double-cliquant sur l'étape "Aller à la page Web" dans le flux de travail. Vérifiez les détails dans les tutoriels suivants: |
4. Extraire les données - sélectionner les données que vous devez extraire (facultatif)
Maintenant, la configuration du flux de travail est presque achevé. Nous pouvons maintenant vérifier les données que nous avons détectées automatiquement et voir s'il y a d'autres champs à ajouter.
- Double-cliquez sur "Extraire les données" dans le flux de travail pour vérifier les détails
- Si vous voulez modifier les noms de champs, cliquez simplement sur les noms de champs
-
- Si vous souhaitez capturer d'autres données sur la page Web, vous pouvez cliquer sur le(s) élément(s) à l'intérieur de la zone surlignée en rouge, puis choisissez "Extraire le texte de l'élément sélectionné"
Si vous avez besoin d'ajouter des champs tels que "Heure actuelle" ou "URL de la page actuelle", cliquez sur l'icône "+"pour les ajouter dans la liste.
Tips! Pour savoir plus sur la façon d' "Extraire les données", consultez les guides suivants: |
5. Exécuter la tâche pour obtenir les données que vous voulezs
- Cliquez sur le bouton "Enregistrer"
- Cliquez sur le bouton "Exécuter", puis choisissez "Exécuter la tâche sur votre appareil"
Voici un exemple de données pour votre référence.
Tips! Pour LinkedIn, vous ne pouvez exécuter la tâche que sur votre appareil local. Le scraping ne peut pas fonctionner sur le Cloud en raison des paramètres anti-scraping de LinkedIn. |
Tutorial en español: Scrapear posts de LinkedIn
También puedes leer más artículos de web scraping en el sitio web oficial
Cet article est-il utile? N'hésitez pas à nous contacter si vous avez besoin de notre aide!
Auteur: Vanny
Les articles récemment consultés
- Scraper les données de Google Search
- Scraper les avis sur les produits d'Amazon
- Scraper les données de Walmart
- Scraper les informations d'entreprises sur Crunchbase
- Scraper les informations d'entreprises sur Google Maps