undefined

Leçon 7: Allez-y! Créez votre première tâche de scraping!

Tuesday, October 26, 2021 9:57 AM

Voilà la dernière leçon de la série d'introduction! Nous espérons que vous avez bénéficié de ce processus d'apprentissage. Pour placer toutes les pièces du puzzle ensemble, faisons une récapitulation avec ce tutoriel, dans lequel nous vous montrons étape par étape comment créer une tâche de scraping à partir de zéro. Nous vous guiderons tout au long du processus, de la saisie de l'URL jusqu'au téléchargement des données extraites. 

Dans cet exemple, nous allons scraper les informations des produits (y compris le prix) à partir d'eBay.com.

 

 1. Créer une nouvelle tâche

 Picture1.png

 

2. Attendre que l'Octoparse termine son auto-détection

Dès que la page Web est chargée dans le navigateur intégré, Octoparse commencera automatiquement à détecter les données de la page Web. Vous pouvez vérifier la barre de progression et attendre patiemment que l'auto-détection se termine.

 

tbtbtbt.gif

 

3. Prévisualiser vos données 

Après la termination de l'auto-détection, allez vérifier vos données dans l'aperçu. Vous pouvez renommer les champs de données ou supprimer ceux dont vous n'avez pas besoins.

 

bgbgbgbg.gif

 

 

4. Enregistrer les paramètres de l'auto-détection

Maintenant, revenez aux "Tips"et vérifiez les paramètres

4.1 Voulez-vous faire défiler la page vers le bas pour charger plus de données → "Non, il n'est pas nécessaire de faire défiler cette page Web.", alors décochez la case "Add a page scroll"

808080080880.png

 

4.2. Voulez-vous gratter plus de pages? "Oui", alors cochez la case pour faire la pagination.

j.png

 

4.3. Avez-vous sélectionné le bon bouton "Page suivante"→ "Oui", vérifiez s'il est marqué sur l'écran.

rrrrr.png

 

Après avoir fait toutes les options sur "Tips", cliquez sur "Create workflow" pour que l'Octoparse puisse générer automatiquement le flux de travail correspondant. Il est important d'assurer que chaque paramètre est correctement configuré car ce sont les paramètres exacts que l'Octoparse utilisera pour générer la tâche de scraper.

mceclip1.png

 

 

Il se peut que vous souhaitiez extraire plus d'informations de la page détaillée du produit. Nous devons donc ajouter une étape supplémentaire au flux de travail afin qu'Octoparse puisse cliquer automatiquement sur chaque lien du produit sur la page.

4.4 Cliquez sur " Click on link(s) to scrape the linked page(s) ".

lplpp.png

 

Choisissez l'option "Click on an extracted data field" et sélectionnez "product_url" dans le menu déroulant et cliquez sur "Confirm".

 

rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr.png

Une étape supplémentaire est ajoutée au flux de travail, à savoir l'étape "Cliquer sur l'URL dans la liste".

mceclip2.png

5. Sélectionnez des données sur la page de détail

 

Vous arrivez maintenant sur la page de détails. Une fois encore, sélectionnez "Auto-detect web page data" dans "Action Tips". Le processus d'auto-détection démarre automatiquement. Vous pouvez basculer entre les résultats détectés jusqu'à ce que vous ayez sélectionné les bonnes données.

uyuyuyuyuyyu.gif

 

 

Cliquez sur "Create workflow" et le workflow mis à jour devrait ressembler à ceci :

mceclip3.png

 

Vous pouvez également sélectionner manuellement les informations de la page web à gratter:

extract_data.gif

 

 

6. Nettoyer les données extraites

Si vous regardez les données extraites, vous trouverez peut-être quelques choses que nous aimerions améliorer.  Par exemple, nous aimerions nous débarrasser de la préposition "de" dans le champ "Lieu", nous devons donc utiliser "Nettoyer les données" pour le faire.

0890.png

 

Cliquez ensuite sur "Add step" - "Replace". Nous devons nous débarrasser de "from" et faire en sorte que toutes les lignes puissent être appariées avec lui. Nous devons remplacer "from" par rien, comme ce GIF est montré ci-dessous.

45645.gif

 

 

Tips!

  • Découvrez d'autres techniques de nettoyage des données ici.

 

 

7. Tester la tâche

La tâche de scraping est maintenant terminée. Comme mentionné précédemment, il est toujours recommandé de tester le flux de travail étape par étape, en s'assurant que chaque étape fait ce qu'elle doit faire. Par exemple, si vous cliquez sur "Go to Web Page", la page Web devrait être chargée sans problème dans le navigateur intégré.

Lancez le flux de travail et cliquez sur toutes les étapes de haut en bas et de l'intérieur à l'extérieur pour les étapes imbriquées (telle que la pagination). Observez si la page Web marche comme prévu. La méthodologie détaillée de test est impliquée ici, n'hésitez pas à la consulter.

994444444.gif

 

 

8.  Planifier et exécuter

Maintenant, c'est entièrement prouvée que votre tâche fonctionne bien, vous pouvez ensuite extraire les données beaucoup plus rapidement en exécutant la tâche sur le cloud ou  faire un calendrier pour qu'elle s'exécute à maintes fois.

Pour démarrer une exécution sur le cloud, cliquez sur "Run" et sélectionnez "Run task in the Cloud".

Pour planifier la tâche, cliquez sur "Run" et sélectionnez "Schedule task (Cloud)".

blockblock.png

 

 

Choisissez la fréquence souhaitée et indiquez le jour et l'heure de l'exécution.

 

 schedule4.png

9. Exporter vos données 

 

Accédez au tableau de bord et trouvez votre tâche, et cliquez sur ouvrir le statut de la tâche pour voir les données extraites. Cliquez sur "Export data" en bas et choisissez le format dans lequel vous souhaitez télécharger les données.

exportdata4.png

Tips!

Consultez ce tutoriel étape par étape pour savoir comment télécharger les données extraites.

 

Félicitations! Vous avez fait du bon travail pour en arriver là. Continuez à suivre nos tutoriels pour devenir le prochain expert en Web scraping. Nous espérons que ce n'est pas la fin de votre apprentissage mais le début de votre parcours de Web scraping.

Si vous avez des questions, qu'elles soient liées aux tâches, au web scraping ou aux services, laissez-nous vous aider. L'équipe Octoparse est honoré de pouvoir faire partie de votre expérience de web scraping. 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter