Les magasins en ligne de Web scraping comme eBay ou Amazon sont devenues une source de données extraordinairement importante, qui vous permet de comparer facilement les vente chaude produits à partir des prix, des fonctionnalités et des descriptions de produits. Le Web scraping du commerce électronique occupe une place très important car il vous aide à comparer les vente chaude produits de différentes boutiques en ligne comme eBay et Amazon en fonction de leurs prix, fonctionnalités et descriptions de produits.

Dans ce tutoriel, nous vous montrerons comment scraper les informations de produits d'eBay.

Vous pouvez aller à "Modèle de Tâche" sur l'écran principal de l'outil de scraping Octoparse et commencer directement avec les modèles eBay prêts à l'emploi pour gagner du temps. Avec cette fonctionnalité, il n'est pas nécessaire de configurer les tâches de scraping. Pour plus de détails, veuillez consulter ici: Modèle de Tâche

mceclip0.png

 

Si vous souhaitez savoir comment créer une tâche à partir de zéro, vous pouvez continuer à lire le tutoriel suivant.

Nous récupérons des données telles que le nom, l'état, le prix et plus d'informations sur la page de détails du produit avec Octoparse.

Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:

https://www.ebay.com/sch/Digital-Cameras-/31388/i.html

 

Nous allons scraper les informations des produits de "appareil photo numérique" sur eBay. Consultez les principales étapes du tutoriel ci-dessous [Télécharger le fichier de tâche ]

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Sélectionner le lien pour scraper les données sur la page de détail 
  4. Extraire les données sur la page de détail du produit
  5. Modifier le XPath des champs de données
  6. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

 

1. "Aller à la page Web" - ouvrir la page Web cible

  • Entrez l'URL d'exemple dans la barre de recherche et cliquez sur "Démarrer"

mceclip1.png

 

 

 

2. Auto-détecter la page Web - créer un flux de travail 

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

mceclip2.png

  • Supprimer les champs indésirables ou modifier les noms de champ dans l'aperçu des données

mceclip3.png

 

  • Choisissez "Créer un flux de travail" dans le panneau Tips

 mceclip4.png

Maintenant, vous aurez un flux de travail comme ci-dessous.

mceclip5.png

 

Si toutes les données dont vous avez besoin peuvent être extraites de la page de liste, vous pouvez vous arrêter ici et passer à Démarrer l'extraction - exécutez la tâche et récupérez les données. Si vous souhaitez accéder à chaque page de détail du produit pour obtenir plus d'informations, veuillez suivre les étapes ci-dessous.

 

 

3. Sélectionner le lien pour scraper les données sur la page de détail 

  • Choisissez "Cliquez sur le (s) lien (s) pour scraper la (les) page (s) liée (s)")
  • Choisissez "Title_URL" sur la liste déroulante 
  • Choisissez "Confirmer"

2.1.gif

Octoparse irait automatiquement à la première page de détails du produit.

 

 

4. Extraire les données sur la page de détail du produit

  • Choisissez "Détecter automatiquement les données de la page Web"
     

 mceclip8.png

  • Si Octoparse détecte les données dont vous avez besoin, choisissez "Créer un workflow"

mceclip9.png

  • Sinon, choisissez "Annuler"

mceclip10.png

  • Cliquez sur le ou les éléments souhaités et choisissez "Extraire le texte de l'élément sélectionné"

mceclip11.png

  • Si nécessaire, cliquez sur mceclip0.png pour modifier le nom du champ 

last.png

 

Tips!

Vous pouvez modifier l'étape "Extraire les données" en le double-cliquant dans le workflow.

Consultez les tutoriels suivants pour plus de détails:

 

 

5. Modifier le XPath des champs de données

Vous devriez modifier le XPath de certains champs de données qui ne s'affichent pas sur chaque page de produit, ou la position du champ varie d'une page à l'autre, comme MPN ou UPC. Nous pouvons modifier le XPath pour rendre le scraping des données plus précis. Pas de soucis! Nous avons vous préparé des XPaths fréquemment utilisés. Vous pouvez simplement utiliser l'élément XPath fourni ci-dessous.

  • Double-cliquez sur "Extraire les données1"
  • Cliquez sur l'option "Modifier XPath" d'un champ

5.png

  • Remplacez XPath avec celui révisé (vous pouvez choisir en fonction de vos besoins de scraping. XPath doit faire correspondre les éléments qui peuvent être trouvés sur la page Web.)
    • MPN: //td[contains(text(),'MPN')]/following-sibling::td[1]
    • EAN: //td[contains(text(),'EAN')]/following-sibling::td[1]
    • UPC: //td[contains(text(),'UPC')]/following-sibling::td[1]
    • Item Weight: //td[contains(text(),'Item Weight')]/following-sibling::td[1]
  • Cliquez sur "OK" pour enregistrer

6.png

Tips!

Si nécessaireVous pouvez consulter les tutoriels XPath ci-dessous pour écrire des XPath pour d'autres champs :

 

 

 

6.Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

mceclip12.png

 

Voici l'exemple de production

mceclip0.png

 

Tutorial en español: Scrapear información de producto de eBay

También puedes leer más artículos de web scraping en el sitio web oficial

 

 

 

Auteur: Vanny

Editeur: Yina