Dans ce tutoriel, nous vous présenterons comment collecter des informations sur les produits, par exemple, le titre du produit, le prix et la note sur Tokopedia (un site de commerce électronique indonésien). Il y a deux façons de le faire avec Octoparse.

 

Option 1) Utilisation du Modèle de Tâche

Octoparse offre des modèles prédéfinis pour extraire rapidement les URL et les détails des produits de Tokopedia. Entrez simplement les paramètres comme indiqué et commencez à obtenir des données immédiatement. Il n'est pas nécessaire de créer la tâche vous-même lorsque vous utilisez les modèles.

Pour accéder aux modèles Tokopedia, cliquez sur "Plus" sur la page d'accueil, puis sélectionnez l'onglet "Produits". Comme vous voyez, deux modèles sont disponibles pour Tokopedia.

mceclip2.png

Généralement, le modèle "Produits de URL" vous aide à capturer les URL des pages de détails du produit à partir des résultats de recherche. Et le modèle "Données du Produit" vous aide à capturer des informations détaillées sur le produit selons la liste des URL précédemment capturées. Sélectionnez le modèle "Product URL" pour commencer. Consultez cet article pour savoir comment utiliser un modèle.
 

 

Tips!

  • Pour exécuter le modèle "Données du Produit", d'abord, vous aurez  besoin d'une liste d'URL de page produit cible. Par conséquent, veuillez utiliser le modèle "Produits de URL" pour récupérer les URL des produits qui vous intéressent, puis exécutez le modèle "Données produit" en utilisant les URL capturées pour plus de détails sur le produit.
  • Le modèle de Tokopedia ne peut utilisé que pour les exécutions locales actuellement.
  • En fonction de la nature du Web, les pages Web sont censées changer tout le temps et, donc, si les modèles sont démodés ou ne fonctionnent plus, veuillez nous en informer.
     

 

 2) Créez votre propre crawler de Tokopedia

Si vous avez essayé les modèles et que cela ne vous donne pas tout à fait les informations dont vous avez besoin ou si les modèles ne fonctionnent plus correctement, vous pouvez configurer votre propre crawler de scraping.

Avec la fonctionnalité de détection automatique d'Octoparse, créer votre propre crawler est très simple. Voyons comment cela se fait étape par étape.
 

Pour cet exemple, nous allons créer deux tâches de scraping, l'un est pour capturer les URL des produits à partir des résultats de recherche, l'autre est pour récupérer les détails du produit sur chaque page de produit.

En générale, si vous avez besoin d'extraire une quantité relativement importante de données, surtout sur un site Web de commerce électronique, il est généralement recommandé de diviser le travail en deux tâches. Le scraping avec une liste d'URL est plus efficace lors de l'exécution dans le Cloud et si vous avez la liste d'URL à portée de main, vous saurez si des produits ont été laissés de côté.
 

 

Nous utiliserons l'URL des résultats de recherche ci-dessous comme l'exemple.
 

https://www.tokopedia.com/search?st=product&q=usb

 

Tâche 1: créer une tâche pour extraire les URL des produits de la page de résultats de recherche

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Créer un "élément de boucle" en utilisant des données de page Web de détection automatique 
  3. Créer une boucle de pagination - récupérer toutes les données de plusieurs pages
  4. Faites glisser le "élément de boucle" dans la "Pagination" s'il n'est pas au bon endroit
  5. Exécuter la tâche sur votre appareil et attendre que la tâche se termine
 

1. "Aller à la page Web" - ouvrir la page Web cible

  • Collez l'URL dans la boîte et cliquez sur "Démarrer" pour continuer

mceclip1.png

 

2. Créer un "élément de boucle" en utilisant des données de page Web de détection automatique 
 

  • Cliquez sur "Détection automatique des données de la page Web" et attendez que la détection se termine

2.png

  • Modifiez les paramètres de défilement de la page et cliquez sur "Créer un workflow"

3.gif

 

 

3. Créer une boucle de pagination - récupérer toutes les données de plusieurs pages

  • Faites défiler vers le bas et cliquez sur le bouton ">" de la page Web
  • Cliquez sur "Boucle cliquez sur un seul bouton" sur "Tips"

mceclip2.png

Tokopedia applique la technique AJAX au bouton de pagination. En conséquence, nous devons configurer le délai d'expiration AJAX.

  • Configurer "AJAX Timeout" (pour la démonstration, nous avons configuré "10s")

1.png

  • Configurer "défiler vers le bas" pour l'action "Cliquer pour paginer"

2.gif

Tips!

Si vous voulez en savoir plus sur AJAX, voici des tutoriels connexes dont vous avez besoin:

 

 

 

 

4. Faites glisser le "élément de boucle" dans la "Pagination" s'il n'est pas au bon endroit

Loop_item1.gif

 

 

5. Exécuter la tâche sur votre appareil et attendre que la tâche se termine

mceclip9.png

 

 

6. Exporter les données dans un fichier d'excel

mceclip11.png

 

 

Tâche 2: Scrapez les détails du produit de chaque page de produit

  1. "Aller à la page Web" - en utilisant le mode avancé
  2. Extraire les données de la page Web
  3. Renommer les champs de données et cliquez sur le bouton OK pour enregistrer toutes les modifications
  4. Exécuter la tâche sur votre appareil
 

 

1. Aller à la page Web - en utilisant le mode avancé

    . Créer une nouvelle tâche avec le bouton "Nouveau +"

mceclip12.png

  • Copiez les URL du fichier de données que nous venons d'exporter et collez la liste d'URL dans la zone du site Web et cliquez sur Enregistrer

mceclip0.png

 

 

2. Extraire les données de la page Web

  • Cliquez sur n'importe quel texte de la page et choisissez "Extraire le texte de l'élément sélectionné"

Extract_.gif

Tips:

Pour scraper d'autres formats de données, vous pouvez cliquer ici:

Extract element text/URL/image/HTML/attribute

 

 

3. Renommer les champs de données et cliquez sur le bouton OK pour enregistrer toutes les modifications

mceclip14.png

 

4. Exécuter la tâche sur votre appareil

 

  Voici l'exemple de production.

mceclip5.png

 

 

Auteur: Lesley

Editeur: Yina