Dans ce tutoriel, nous vous présenterons comment collecter des informations sur les produits, par exemple, le titre du produit, le prix et la note sur Tokopedia (un site de commerce électronique indonésien). Il y a deux façons de le faire avec Octoparse.
Option 1) Utilisation du Modèle de Tâche
Octoparse offre des modèles prédéfinis pour extraire rapidement les URL et les détails des produits de Tokopedia. Entrez simplement les paramètres comme indiqué et commencez à obtenir des données immédiatement. Il n'est pas nécessaire de créer la tâche vous-même lorsque vous utilisez les modèles.
Pour accéder aux modèles Tokopedia, cliquez sur "Plus" sur la page d'accueil, puis sélectionnez l'onglet "Produits". Comme vous voyez, deux modèles sont disponibles pour Tokopedia.
Généralement, le modèle "Produits de URL" vous aide à capturer les URL des pages de détails du produit à partir des résultats de recherche. Et le modèle "Données du Produit" vous aide à capturer des informations détaillées sur le produit selons la liste des URL précédemment capturées. Sélectionnez le modèle "Product URL" pour commencer. Consultez cet article pour savoir comment utiliser un modèle.
Tips!
|
2) Créez votre propre crawler de Tokopedia
Si vous avez essayé les modèles et que cela ne vous donne pas tout à fait les informations dont vous avez besoin ou si les modèles ne fonctionnent plus correctement, vous pouvez configurer votre propre crawler de scraping.
Avec la fonctionnalité de détection automatique d'Octoparse, créer votre propre crawler est très simple. Voyons comment cela se fait étape par étape.
Pour cet exemple, nous allons créer deux tâches de scraping, l'un est pour capturer les URL des produits à partir des résultats de recherche, l'autre est pour récupérer les détails du produit sur chaque page de produit.
En générale, si vous avez besoin d'extraire une quantité relativement importante de données, surtout sur un site Web de commerce électronique, il est généralement recommandé de diviser le travail en deux tâches. Le scraping avec une liste d'URL est plus efficace lors de l'exécution dans le Cloud et si vous avez la liste d'URL à portée de main, vous saurez si des produits ont été laissés de côté.
Nous utiliserons l'URL des résultats de recherche ci-dessous comme l'exemple.
https://www.tokopedia.com/search?st=product&q=usb
Tâche 1: créer une tâche pour extraire les URL des produits de la page de résultats de recherche
- "Aller à la page Web" - ouvrir la page Web cible
- Créer un "élément de boucle" en utilisant des données de page Web de détection automatique
- Créer une boucle de pagination - récupérer toutes les données de plusieurs pages
- Faites glisser le "élément de boucle" dans la "Pagination" s'il n'est pas au bon endroit
- Exécuter la tâche sur votre appareil et attendre que la tâche se termine
1. "Aller à la page Web" - ouvrir la page Web cible
- Collez l'URL dans la boîte et cliquez sur "Démarrer" pour continuer
2. Créer un "élément de boucle" en utilisant des données de page Web de détection automatique
- Cliquez sur "Détection automatique des données de la page Web" et attendez que la détection se termine
- Modifiez les paramètres de défilement de la page et cliquez sur "Créer un workflow"
3. Créer une boucle de pagination - récupérer toutes les données de plusieurs pages
- Faites défiler vers le bas et cliquez sur le bouton ">" de la page Web
- Cliquez sur "Boucle cliquez sur un seul bouton" sur "Tips"
Tokopedia applique la technique AJAX au bouton de pagination. En conséquence, nous devons configurer le délai d'expiration AJAX.
- Configurer "AJAX Timeout" (pour la démonstration, nous avons configuré "10s")
- Configurer "défiler vers le bas" pour l'action "Cliquer pour paginer"
Tips! Si vous voulez en savoir plus sur AJAX, voici des tutoriels connexes dont vous avez besoin: |
4. Faites glisser le "élément de boucle" dans la "Pagination" s'il n'est pas au bon endroit
5. Exécuter la tâche sur votre appareil et attendre que la tâche se termine
6. Exporter les données dans un fichier d'excel
Tâche 2: Scrapez les détails du produit de chaque page de produit
- "Aller à la page Web" - en utilisant le mode avancé
- Extraire les données de la page Web
- Renommer les champs de données et cliquez sur le bouton OK pour enregistrer toutes les modifications
- Exécuter la tâche sur votre appareil
1. Aller à la page Web - en utilisant le mode avancé
. Créer une nouvelle tâche avec le bouton "Nouveau +"
- Copiez les URL du fichier de données que nous venons d'exporter et collez la liste d'URL dans la zone du site Web et cliquez sur Enregistrer
2. Extraire les données de la page Web
- Cliquez sur n'importe quel texte de la page et choisissez "Extraire le texte de l'élément sélectionné"
Tips: Pour scraper d'autres formats de données, vous pouvez cliquer ici: |
3. Renommer les champs de données et cliquez sur le bouton OK pour enregistrer toutes les modifications
4. Exécuter la tâche sur votre appareil
Voici l'exemple de production.
Auteur: Lesley
Editeur: Yina