Dans ce tutoriel, nous vous montrerons comment scraper les données de produits de Canadian Tire avec Octoparse.

Pour Canadian Tire, vous pouvez voir notre «Modèle de Tâche» sur l'écran principal de l'outil de scraping Octoparse. Tout ce dont vous avez besoin est de saisir plusieurs paramètres et la tâche est prête. Pour plus de détails, vous pouvez le consulter ici
:Modèle de Tâcheexternal-link-symbol-1.png

1515151515.png

Nous récupérerons le titre, le prix, le stock, etc. de ce site Web. Pour continuer, vous pouvez utiliser cette URL:

https://www.canadiantire.ca/en/automotive/tires-wheels/tires.html?adlocation=LOL_TiresSCLP_MegaNavAuto_19309_enhttps://www.canadiantire.ca/en/search-results.html?q=bulb

 

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici ]

  1. Ouvrir la page Web cible
  2. Détecter automatiquement la page Web pour créer un Workflow
  3. Cliquer sur chaque lien de produit pour obtenir des informations plus détaillées
  4. Extraire les données de la page de détail du produit
  5. Configurer le temps d'attente pour ralentir la vitesse de scraping
  6. Enregistrer et commencer à exécuter la tâche et à obtenir des données
 

 

1) Ouvrir la page Web cible

  • Entrez l'URL sur la page d'accueil et cliquez sur Démarrer

2554254254.png

Tips!

Si vous voyez des fenêtres contextuelles sur la page Web, passez en mode Parcourir en cliquant sur
 mceclip0.png pour le fermer manuellement. N'oubliez pas de désactiver le mode Parcourir après cela.

 
 

2) Détecter automatiquement la page Web pour créer un Workflow

  • Cliquez sur "Détecter automatiquement les données de la page Web" et attendez que la détection soit terminée
    (Cela peut prendre beaucoup de temps car le site Web applique un chargement infini)

 

2.png

  • Cliquez sur "Modifier" sous "Cliquez sur un bouton Charger plus" pour réviser le "Nombre de clics" en fonction du nombre de produits à scraper (le paramètre par défaut est de cliquer sur "1" fois)

2..gif

  • Supprimer les champs indésirables ou modifier les noms de champ dans l'aperçu des données

2.1.png

  • Cliquez sur "Créer un workflow"

2.2.png

 

 

3) Cliquer sur chaque lien de produit pour obtenir des informations plus détaillées

  • Choisissez "Cliquez sur le (s) lien (s) pour scraper les pages liées"
  • Sélectionnez "Cliquez sur un champ de données extrait" et sélectionnez "Title_URL" dans le menu déroulant
  • Cliquez sur "Confirmer"

5629625656.gif

 

 

4) Extraire les données de la page de détail du produit

  • Sélectionnez des informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes ci-dessus pour extraire toutes les données dont vous avez besoin

512961495849841.gif

  • Il est nécessaire de renommer les champs.

3.1.png

 

 

5) Configurer le temps d'attente pour ralentir la vitesse de scraping

Le site Web applique une technique anti-scraping et vous refuserait l'accès si vous scrapez trop vite. Nous devons ralentir le scraping en fixant le temps d'attente.

  • Double-cliquez sur "Extraire les données1" pour ouvrir les paramètres
  • Cochez "Attendre avant l'action"
  • Configurez le temps d'attente entre 7 à 10 secondes

5.1.gif

 

 

6) Enregistrer et commencer à exécuter la tâche et à obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Exécuter" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareilexternal-link-symbol-1.png" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloudexternal-link-symbol-1.png" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

6.png

 

 Voici l'exemple de production

6_1561561.png

 

Auteur: Kara

Editeur: Yina