Toutes les collections
Tutoriel sur les cas
Emplois
Scraper des informations sur les offres d'emploi de Indeed
Scraper des informations sur les offres d'emploi de Indeed

récupérer des informations sur les offres d'emploi de Indeed: le poste, l'entreprise,l'url etc.

Mis à jour il y a plus d’une semaine

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici.si vous ne l'avez pas encore fait !

Indeed est l'un des sites d'offres d'emploi les plus populaires. Grâce au web scraping, vous pouvez découvrir la valeur de nombreuses informations sur les emplois. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les offres d'emploi sur Indeed.

Avant de commencer, nous devons obtenir l'URL de la page de résultats cible en recherchant un mot-clé et une localisation.

Vous trouverez ci-dessous un exemple d'URL pour la démonstration :

La façon la plus simple de scrapper le site web est d'aller dans "Task Templates" sur l'écran principal de l'outil de scraping Octoparse et de commencer directement avec les Indeed Templates prêts à l'emploi pour gagner du temps. Entrez simplement l'URL oumots-clés dans le modèle, et vous pouvez attendre que les données exportent. Pour plus de détails, vous pouvez consulter le site ici : Modèles de Web Scraping

modèle

Voici les principales étapes de ce tutoriel :

1.Aller à la page Web - Ouvrez la page Web ciblée

Entrez l'URL de la page d'accueil et cliquez sur Démarrer

entrer url

2.Créer une pagination - Extraire des données de plusieurs pages

  • cliquer sur les éléments que vous voulez scraper

extraire les données
  • Cliquez sur le bouton Page suivante (>) sur la page

  • Choisissez Loop click singe element dans les Tips

scraper plusieurs pages

Une pagination sera créée dans le flux de travail.

pagination

Pour s'assurer que la pagination peut fonctionner correctement, nous devons modifier le XPath.

  • Cliquez sur Pagination

  • Entrez XPath //a[@aria-label="Next"]

  • Cliquez sur Appliquer pour sauvegarder


    modification xpath

mode de browse

CONSEIL:

Si vous voyez des fenêtres pop-up sur la page, veuillez activer le mode de browse dans le coin supérieur droit et fermer manuellement la fenêtre pop-up. Ensuite, désactivez le mode de browse pour continuer à créer le flux de travail.

3.Créer une boucle d'éléments - Extraire des informations sur les offres d'emploi

  • Sélectionnez les deux premiers blocs d'informations sur le travail (notez que vous devez sélectionner l'ensemble du bloc qui contient toutes les informations que vous souhaitez)

  • Choisissez Extract text of the selected elements

gif

Un élément de boucle sera créé dans le flux de travail.

loop item

Mais vous avez peut-être remarqué que toutes les informations ont été regroupées dans une seule cellule. Nous devons séparer les informations dans différentes colonnes.

  • Sélectionnez le premier titre de poste (dans la zone en surbrillance)

  • Choisissez Extract the text of the element

séparation des textes

  • Faites de même pour extraire d'autres informations du premier poste

  • Double-cliquez sur le nom du champ pour le renommer si nécessaire

renomer

4.Configurez le temps d'attente pour "Extraire les données" - contrôlez la vitesse d'extraction

  • Cliquez sur Extraire les données

  • Cliquez sur Options

  • Cochez la case Attendre avant d'agir

  • Configurez le temps d'attente à 3-4s

gif

5.Lancez l'extraction - exécutez la tâche et récupérez les données

  • Cliquez sur Enregistrer

  • Cliquez sur Exécuter dans la partie supérieure gauche

  • Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre ordinateur, ou sélectionnez Exécuter la tâche dans le Cloud pour exécuter la tâche dans le Cloud (pour les utilisateurs Premium uniquement)

extraction
data

Avez-vous trouvé la réponse à votre question ?