undefined

Scraper les données de Walmart

Wednesday, May 19, 2021 6:19 PM

Dans ce tutoriel, nous vous montrerons comment scraper les données de produits sur Realtor.com avec Octoparse.

Vous pouvez aller directement dans "Modèles de tâches" sur l'écran principal d'Octoparse, et commencer avec le modèle Walmart prédéfini pour gagner du temps. Avec cette fonctionnalité, vous n4qvew plus besoin de configurer les tâches de scraping en vous-même. Pour plus de détails, veuillez consulter ici: Modèles de tâches

121612..png

 

Si vous voulez créer la tâche à partir de zéro,vous pouvez utiliser l'URL de ce tutoriel.

 Supposons que nous voulions récupérer des informations spécifiques sur les écouteurs, nous pouvons commencer par la page de résultats de recherche (https://www.walmart.com/search/?query=headphones) pour créer notre crawler. Nous allons collecter des informations telles que le titre, le prix, l'ID du produit et les commentaires sur la page de détails du produit avec Octoparse.

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]

  1. Ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Cliquer sur chaque lien de détail pour obtenir plus d'informations
  4. Extraire des données sur la pages de détail
  5. Prolonger le délai d'attente AJAX de l'action "Cliquer pour paginer"
  6. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

1) Ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

651651561565.png

 

 

2) Auto-détecter la page Web - créer un flux de travail 

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

 5614561481.gif

 
  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
    • Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône  mceclip14.png

2.1.png

  • Cliquez sur "Créer un workflow"

2.2.png

 

 

3) Cliquer sur chaque lien de détail pour obtenir plus d'informations

  • Choisissez "Cliquez sur le(s) lien(s) pour gratter la(les) pages liées"
  • Sélectionnez "Cliquez sur un champ de données extrait" et sélectionnez celui sur lequel vous souhaitez cliquer dans le menu déroulant, vous pouvez confirmer s'il s'agit du lien correct dans l'aperçu des données
  • Cliquez sur "Confirmer"

484984948498.gif

 

 

 4) Extraire des données sur la pages de détail

  • Sélectionnez des informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes précedentes pour extraire toutes les données dont vous avez besoin

165156156.gif

  • Cliquez sur mceclip14.png pour modifier le nom du champ si nécessaire.

last.png

 
 

5) Prolonger le délai d'attente AJAX de l'action "Cliquer pour paginer"

  • Ouvrez les paramètres d'action de "Cliquer pour paginer"
  • Configurez le délai d'attente AJAX à 10 s

5.1.gif

 

 

6) Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloudexternal-link-symbol-1.png" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

6.png

 

Voici l'exemple de l'exportation

mceclip2.png

 

Cet article est-il utile? N'hésitez pas à nous contacter si vous avez besoin de notre aide!

 

Auteur: Kara

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter