undefined

Scraper les informations d'emplois de LinkedIn

Wednesday, May 19, 2021 8:24 PM

LinkedIn est une bonne ressource pour obtenir des informations de différentes entreprises. Dans ce tutoriel, nous allons vous montrer comment y récupérer les publications.

Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:

https://www.linkedin.com/search/results/content/?keywords=octoparse&origin=SWITCH_SEARCH_VERTICAL

Avant de commencer, assurez-vous d'avoir téléchargé notre dernière version 8.1 (Consultez ce guide pour télécharger Actualités: Octoparse 8.1 Beta est sorti! ). LinkedIn n'est plus compatible avec Octoparse 7.3.0.

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Se connecter au site Web
  3. Auto-détecter la page Web - créer un flux de travail 
  4. Extraire les données - sélectionner les données que vous devez extraire (facultatif)
  5. Exécuter la tâche pour obtenir les données que vous voulezs
 

 

1. "Aller à la page Web" - ouvrir la page Web cible

  • Entrez l'URL dans la barre de recherche
  • Cliquez sur "Démarrer" pour commencer une nouvelle tâche

 mceclip0.png

 

 

2. Se connecter au site Web

On est obligé de se connecter avant d'accéder aux données de LinkedIn. Dans ce cas-là, nous utiliserons la méthode "Enregistrer les cookies" pour vous démonstrer.

  • Activez l'action"Auto-détecter les données de la page Web" pour vous aider à configurer la tâche

mceclip2.png

  • Après l'auto-détection, cliquez sur "Pas la bonne page Web?"
  • Puis, choisissez "Se connecter au site Web"

mceclip5.png 

 Après avoir cliqué sur "Se connecter au site Web", vous êtes maintenant sous le "Mode de navigation". Vous pouvez naviguer sur la page comme dans un navigateur ordinaire. Les actions que vous effectuez ne seront pas inclues dans les étapes du flux de travail.

Étant donné que c'est une page d'inscription, vous devez cliquer sur "Se connecter" pour accéder à la page de connexion (vous pouvez l'ignorer si vous êtes déjà sur la page de connexion).

mceclip6.png

mceclip8.png

Vous verrez une remarque en haut indiquant "Cookies enregistrés".

mceclip10.png

 Puis, vous pouvez commencer à récupérer les données dont vous avez besoin.

 Tips!

Octoparse offre de différentes méthodes pour traiter les données après la connexion. Vous pouvez en savoir plus dans ce tutoriel pour ajouter des étapes de connexion au flux de travail: Scraper les données après la connexionexternal-link-symbol-1.png

 

3. Auto-détecter la page Web - créer un flux de travail 

Vous pouvez continuer avec la fonctionnalité "Auto-détecter les données de la page Web" dans le panneau Tips.

  • Cliquez sur "Auto-détecter les données de la page Web"
  • Attendez que l'au-détection se termine (cela peut prendre un peu plus de temps car ce site applique un défilement infinitif vers le bas pour charger la page)

     mceclip11.png

  • Cliquez sur "Modifier" sous "Ajouter un défilement de page" pour voir si vous avez besoin d'ajuster le temps de défilement de pages.

2.png

  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
    • Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône  mceclip14.png

2.3.png

  • Si vous êtes content du format actuel des données, cliquez sur "Créer un workflow"

2.4.png

Et un flux de travail sera généré comme ci-dessous.

mceclip15.png

 Tips!

Le défilement des pages a été largement appliqué sur différents sites Web dans Octoparse. Pour gérer ce type de sites Web, vous pouvez soit utiliser la fonctionnalité "Auto-détection" pour vous aider, soit configurer en vous-même le défilement de la page en double-cliquant sur l'étape "Aller à la page Web" dans le flux de travail.

Vérifiez les détails dans les tutoriels suivants:

 

  

4. Extraire les données - sélectionner les données que vous devez extraire (facultatif)

Maintenant, la configuration du flux de travail est presque achevé. Nous pouvons maintenant vérifier les données que nous avons détectées automatiquement et voir s'il y a d'autres champs à ajouter.

  • Double-cliquez sur "Extraire les données" dans le flux de travail pour vérifier les détails
    •  Si vous voulez modifier les noms de champs, cliquez simplement sur les noms de champs

3.1.png

    • Si vous souhaitez capturer d'autres données sur la page Web, vous pouvez cliquer sur le(s) élément(s) à l'intérieur de la zone surlignée en rouge, puis choisissez "Extraire le texte de l'élément sélectionné"

mceclip2.png

Si vous avez besoin d'ajouter des champs tels que "Heure actuelle" ou "URL de la page actuelle", cliquez sur l'icône "+"pour les ajouter dans la liste.

mceclip3.png

 Tips!

Pour savoir plus sur la façon d' "Extraire les données", consultez les guides suivants:

  1. Ajouter des champs de données prédéfinisexternal-link-symbol-1.png
  2. Extraire les Donnéesexternal-link-symbol-1.png
 

   

5. Exécuter la tâche pour obtenir les données que vous voulezs

  • Cliquez sur le bouton "Enregistrer"
  • Cliquez sur le bouton "Exécuter", puis choisissez "Exécuter la tâche sur votre appareil"

mceclip4.png

Voici un exemple de données pour votre référence.

mceclip5.png

Tips!

 Pour LinkedIn, vous ne pouvez exécuter la tâche que sur votre appareil local. Le scraping ne peut pas fonctionner sur le Cloud en raison des paramètres anti-scraping de LinkedIn.

 

Tutorial en español:  Scrapear posts de LinkedIn

También puedes leer más artículos de web scraping en el sitio web oficial

 

Cet article est-il utile? N'hésitez pas à nous contacter si vous avez besoin de notre aide!

 

Auteur: Vanny

Editeur: Yina

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter