Leçon 7: Allez-y! Créez votre première tâche!

Voilà la dernière leçon de la série d'introduction! Nous espérons que vous avez bénéficié de ce processus d'apprentissage. Pour placer toutes les pièces du puzzle ensemble, faisons une récapitulation avec ce tutoriel, dans lequel nous vous montrons étape par étape comment créer une tâche de scraping à partir de zéro. Nous vous guiderons tout au long du processus, de la saisie de l'URL jusqu'au téléchargement des données extraites.

Dans cet exemple, nous allons scraper les informations des produits (y compris le prix) à partir d'eBay.com.

1. Créer une nouvelle tâche

Ouvrez l'app Octoparse et entez le cible URL (https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0) dans la zone de recherche, cliquez ensuite sur le bouton "Start" pour créer une nouvelle tâche.

2. Attendre que l'Octoparse termine son auto-détection

Dès que la page Web est chargée dans le navigateur intégré, Octoparse commencera automatiquement à détecter les données de la page Web. Vous pouvez vérifier la barre de progression et attendre patiemment que l'auto-détection se termine.

3. Prévisualiser vos données

Après la termination de l'auto-détection, allez vérifier vos données dans l'aperçu. Vous pouvez renommer les champs de données ou supprimer ceux dont vous n'avez pas besoins.

4. Enregistrer les paramètres de l'auto-détection

Maintenant, revenez aux "Tips"et vérifiez les paramètres

4.1 Voulez-vous faire défiler la page vers le bas pour charger plus de données → "Non, il n'est pas nécessaire de faire défiler cette page Web.", alors décochez la case "Add a page scroll".

4.2. Voulez-vous gratter plus de pages?→ "Oui", alors cochez la case pour faire la pagination.

4.3. Avez-vous sélectionné le bon bouton "Page suivante"→ "Oui", vérifiez s'il est marqué sur l'écran.

Après avoir fait toutes les options sur "Tips", cliquez sur "Create workflow" pour que l'Octoparse puisse générer automatiquement le flux de travail correspondant. Il est important d'assurer que chaque paramètre est correctement configuré car ce sont les paramètres exacts que l'Octoparse utilisera pour générer la tâche de scraper.

Il se peut que vous souhaitiez extraire plus d'informations de la page détaillée du produit. Nous devons donc ajouter une étape supplémentaire au flux de travail afin qu'Octoparse puisse cliquer automatiquement sur chaque lien du produit sur la page.

4.4 Cliquez sur " Click on link(s) to scrape the linked page(s) ".

Choisissez l'option "Click on an extracted data field" et sélectionnez "product_url" dans le menu déroulant et cliquez sur "Confirm".

Une étape supplémentaire est ajoutée au flux de travail, à savoir l'étape "Cliquer sur l'URL dans la liste".

5. Sélectionnez des données sur la page de détail

Vous arrivez maintenant sur la page de détails. Une fois encore, sélectionnez "Auto-detect web page data" dans "Action Tips". Le processus d'auto-détection démarre automatiquement.

Cliquez sur les données que vous souhaitez capturer, puis sélectionnez "Extract the text of the selected element" dans "Tips". Répétez les mêmes étapes pour chaque champ de données.

6. Nettoyer les données extraites

Si vous regardez les données extraites, vous trouverez peut-être quelques choses que nous aimerions améliorer. Par exemple, nous aimerions nous débarrasser de la préposition "de" dans le champ "Lieu", nous devons donc utiliser "Nettoyer les données" pour le faire.

Cliquez ensuite sur "Add step" - "Replace". Nous devons nous débarrasser de "from" et faire en sorte que toutes les lignes puissent être appariées avec lui. Nous devons remplacer "from" par rien, comme ce GIF est montré ci-dessous.

7. Tester la tâche

La tâche de scraping est maintenant terminée. Comme mentionné précédemment, il est toujours recommandé de tester le flux de travail étape par étape, en s'assurant que chaque étape fait ce qu'elle doit faire. Par exemple, si vous cliquez sur "Go to Web Page", la page Web devrait être chargée sans problème dans le navigateur intégré.

Lancez le flux de travail et cliquez sur toutes les étapes de haut en bas et de l'intérieur à l'extérieur pour les étapes imbriquées (telle que la pagination). Observez si la page Web marche comme prévu. La méthodologie détaillée de test est impliquée ici, n'hésitez pas à la consulter.

8. Planifier et exécuter

Maintenant, c'est entièrement prouvée que votre tâche fonctionne bien, vous pouvez ensuite extraire les données beaucoup plus rapidement en exécutant la tâche sur le cloud ou faire un calendrier pour qu'elle s'exécute à maintes fois.

Pour démarrer une exécution sur le cloud, cliquez sur "Run" et sélectionnez "Run task in the Cloud".

Regardez vos données être extraites en direct !

Pour planifier la tâche, cliquez sur "Run" et sélectionnez "Schedule task (Cloud)".

Choisissez la fréquence souhaitée et indiquez le jour et l'heure de l'exécution.

9. Exporter vos données

Accédez au tableau de bord et trouvez votre tâche, et cliquez sur ouvrir le statut de la tâche pour voir les données extraites. Cliquez sur "Export data" en bas et choisissez le format dans lequel vous souhaitez télécharger les données.

Félicitations! Vous avez fait du bon travail pour en arriver là. Continuez à suivre nos tutoriels pour devenir le prochain expert en Web scraping. Nous espérons que ce n'est pas la fin de votre apprentissage mais le début de votre parcours de Web scraping.