undefined

Scraper les informations de produits sur Target.com (version 8)

Wednesday, May 19, 2021 4:54 PM

 

Target.com, l'un des plus grands détaillants en ligne aux États-Unis. Dans ce tutoriel, nous vous montrerons comment extraire les informations de produits sur Target.com.

Si vous voulez créer la tâche à partir de zéro,vous pouvez continuer à suivre ce tutoriel

En raison de la structure du site Web, nous devons configurer 2 tâches pour atteindre l'objectif. Nous allons gratter l'URL de chaque page d'article dans la tâche 1, puis extraire les informations détaillées de produits, telles que le titre du produit, le prix et la description de la page de détail du produit dans la tâche 2. En divisant une tâche en deux, la vitesse d'extraction pourrait être amélioré dans une certaine mesure, en particulier lorsque nous utilisons l'extraction sur cloud d'Octoparse.

Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel:

https://www.target.com/c/milk-substitutes-dairy-grocery/-/N-5xszh?lnk=MilkMilkSubstit

 

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche iciexternal-link-symbol-1.png]

Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche [Télécharger le fichier de tâche

  1. Aller à la page Web - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Configurer un délai d'attente AJAX pour l'action "Cliquer pour paginer"
  4. Démarrer l'extraction - exécuter la tâche et obtenir des données

Tâche 2: Collecter les informations de produits à partir d'URLs récupérées [Télécharger le fichier de tâche iciexternal-link-symbol-1.png]

  1. Entrer les URLs récupérées - ouvrir en boucle les pages de détails
  2. Extraire les données - sélectionner les données à extraire
  3. Configurer un délai d'attente pour ralentir le grattage
  4. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche
 

1. Aller à la page Web - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

9614561561.png

 

 

2. Auto-détecter la page Web - créer un flux de travail 

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

559595596.gif

  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.(N'oubliez pas de garder le champ URL de produit)
    • Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône  mceclip14.png

2020-10-05_20-42-31.png

  • Cliquez sur "Créer un workflow"

43543543.png

 

3. Configurer un délai d'attente AJAX pour l'action "Cliquer pour paginer"

Target utilise AJAX pour charger les pages suivantes, nous devons donc configurer un délai d'attente AJAX.

  • Ouvrez les paramètres de l'action "Cliquer pour paginer"
  • Cochez "Charger avec AJAX"
  • Configurez le délai d'attente AJAX entre 7-10 s

3.1.gif

 

 

4. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

 9_59_25_6256.gif

 

Voici l'exemple d'exportation pour tâche 1.

56156156156.png

 

Tâche 2: Collecter les informations de produits à partir d'URLs récupérées

 

1. Entrer les URLs récupérées - ouvrir en boucle les pages de détails

Dans Tâche 1, nous avons déjà récupéré un lot d'URLs.

  • Cliquez sur "+ Nouveau" en sélectionnant le "Mode avancé" pour configurer tâche 2
  • Sélectionnez "Entrer manuellement", puis collez les URLs récupérées
  • Cliquez sur "Enregistrer URL"

697689.gif

Tips!

There are three ways to batch import URLs to any single task/crawler (up to one million URLs). Il y a trois façons pour importer en auqntité des URL dans n'importe quelle tâche / crawler (jusqu'à un million d'URL).

Vous pouvez également copier les URLs du fichier d'extraction de la tâche 1, puis les coller dans la zone de texte "Site Web". Pour en obtenir plus de connaissances, veuillez consulter Importer en quantité les URLs

 

 

2. Extraire les données - sélectionner les données à extraire

  • Sélectionnez les informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes précedentes pour gratter d'autres informations de base d'entreprises

43432432.gif

  • Cliquez sur mceclip14.png pour modifier les noms du champs si nécessaire

322342.png

 

 

3. Configurer un délai d'attente pour ralentir le grattage

  • Ouvrez les paramètres de l'action "Extraire les données"
  • Cochez "Attendre avant l'action"
  • Configurez le délai d'attente entre 7-10 s6.2.gif
 

 

4. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloudexternal-link-symbol-1.png" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

2323213.png

Voici l'exemple de l'exportation. 

432432.png

 

Cet article est-il utile? N'hésitez pas à Nous contacter   si vous avez besoin de notre aide!

 

Auteur: Kara

Editeur: Yina

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter