Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici.si vous ne l'avez pas encore fait !
Indeed est l'un des sites d'offres d'emploi les plus populaires. Grâce au web scraping, vous pouvez découvrir la valeur de nombreuses informations sur les emplois. Dans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire les offres d'emploi sur Indeed.
Avant de commencer, nous devons obtenir l'URL de la page de résultats cible en recherchant un mot-clé et une localisation.
Vous trouverez ci-dessous un exemple d'URL pour la démonstration :
La façon la plus simple de scrapper le site web est d'aller dans "Task Templates" sur l'écran principal de l'outil de scraping Octoparse et de commencer directement avec les Indeed Templates prêts à l'emploi pour gagner du temps. Entrez simplement l'URL oumots-clés dans le modèle, et vous pouvez attendre que les données exportent. Pour plus de détails, vous pouvez consulter le site ici : Modèles de Web Scraping
Voici les principales étapes de ce tutoriel :
1.Aller à la page Web - Ouvrez la page Web ciblée
Entrez l'URL de la page d'accueil et cliquez sur Démarrer
2.Créer une pagination - Extraire des données de plusieurs pages
cliquer sur les éléments que vous voulez scraper
Cliquez sur le bouton Page suivante (>) sur la page
Choisissez Loop click singe element dans les Tips
Une pagination sera créée dans le flux de travail.
Pour s'assurer que la pagination peut fonctionner correctement, nous devons modifier le XPath.
CONSEIL:
Si vous voyez des fenêtres pop-up sur la page, veuillez activer le mode de browse dans le coin supérieur droit et fermer manuellement la fenêtre pop-up. Ensuite, désactivez le mode de browse pour continuer à créer le flux de travail.
3.Créer une boucle d'éléments - Extraire des informations sur les offres d'emploi
Sélectionnez les deux premiers blocs d'informations sur le travail (notez que vous devez sélectionner l'ensemble du bloc qui contient toutes les informations que vous souhaitez)
Choisissez Extract text of the selected elements
Un élément de boucle sera créé dans le flux de travail.
Mais vous avez peut-être remarqué que toutes les informations ont été regroupées dans une seule cellule. Nous devons séparer les informations dans différentes colonnes.
Sélectionnez le premier titre de poste (dans la zone en surbrillance)
Choisissez Extract the text of the element
Faites de même pour extraire d'autres informations du premier poste
Double-cliquez sur le nom du champ pour le renommer si nécessaire
4.Configurez le temps d'attente pour "Extraire les données" - contrôlez la vitesse d'extraction
Cliquez sur Extraire les données
Cliquez sur Options
Cochez la case Attendre avant d'agir
Configurez le temps d'attente à 3-4s
5.Lancez l'extraction - exécutez la tâche et récupérez les données
Cliquez sur Enregistrer
Cliquez sur Exécuter dans la partie supérieure gauche
Sélectionnez Exécuter sur votre appareil pour exécuter la tâche sur votre ordinateur, ou sélectionnez Exécuter la tâche dans le Cloud pour exécuter la tâche dans le Cloud (pour les utilisateurs Premium uniquement)