undefined

Leçon 7: Allez! Créez votre première tâche de scraping!

Wednesday, May 12, 2021 3:18 PM

 

Voilà la dernière leçon de la série d'introduction! Nous espérons que cette série vous a plu et que vous avez bénéficié de ce processus d'apprentissage. Pour placer toutes les pièces du puzzle ensemble, faisons un récapitulatif avec un tutoriel, dans lequel nous vous montrons étape par étape comment créer une tâche de grattage à partir de zéro. Nous vous guiderons tout au long du processus, de la saisie de l'URL jusqu'au téléchargement des données extraites. Entrons maintenant dans le sujet.

Dans cet exemple, nous allons scraper les informations des produits (y compris le prix) à partir d'eBay.com.

 

 1. Créer une nouvelle tâche

  • Ouvrez l'app Octoparse et entez le cible URL (https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1312.R1.TR11.TRC2.A0.H0.Xwireless.TRS1&_nkw=wireless+earbuds&_sacat=0) dans la zone de recherche, cliquez ensuite sur le bouton "Démarrer" pour créer une nouvelle tâche.

 Picture1.png

 

2. Attendre que l'Octoparse termine son auto-détection

Dès que la page Web est chargée dans le navigateur intégré, Octoparse commencera automatiquement à détecter les données de la page Web. Vous pouvez vérifier la barre de progression et attendre patiemment que l'auto-détection se termine.

m.gif

 

 

3. Prévisualiser vos données 

Après la termination de l'auto-détection, allez vérifier vos données dans l'aperçu. Vous pouvez renommer les champs de données ou supprimer ceux dont vous n'avez pas besoins.

n.gif

 

 

4. Enregistrer les paramètres de l'auto-détection

Maintenant, revenez aux "Tips"et vérifiez les paramètres

4.1 Voulez-vous faire défiler la page vers le bas pour charger plus de données "Oui, pourquoi pas?", alors cochez la case pour le faire.

k.png

 

4.2. Voulez-vous gratter plus de pages? "Oui", alors cochez la case pour faire la pagination.

j.png

4.3. Avez-vous sélectionné le bon bouton "Page suivante"→ "Oui", vérifiez s'il est marqué sur l'écran.

a5cbb8c93d7f6f006b6d03287160d28.png

 

Après avoir fait toutes les options sur "Tips", cliquez sur "Enregistrer les paramètres" pour que l'Octoparse puisse générer automatiquement le flux de travail correspondant. Il est important d'assurer que chaque paramètre est correctement configuré car ce sont les paramètres exacts que l'Octoparse utilisera pour générer la tâche de scraper.

l.png

 

5. Sélectionnez des données sur la page de détail

Entrez maintenant dans la page de détail. Le processus de l'auto-détection pourrait redémarrer, mais vous pouvez l'annuler et sélectionner manuellement. L'auto-sélection fonctionnera mieux pour capturer des données structurées, alors que la sélection manuelle fonctionnera plus efficacement pour sélectionner des champs de données individuels.

canceldetect.png

 

Cliquez sur les données que vous souhaitez capturer, puis sélectionnez "Extraire le texte de l'élément sélectionné" sur "Tips". Répétez les mêmes étapes pour chaque champ de données.

select1.gif

 

Consultez l'aperçu des données pour vérifier les données extraites et renommez les champs s'il est nécessaire.

renamefield2.gif

 

6. Nettoyer les données extraites

Si vous regardez les données extraites, vous trouverez peut-être quelques choses que nous aimerions améliorer. Pour les données de retour, nous aimerions qu'elles restent numériques afin qu'il soit plus facile de travailler avec une feuille Excel. Il vaut donc mieux de remplacer les mots "Rétroaction positive" par rien afin que nous puissions conserver la valeur en pourcentage au lieu des mots. 

Cliquez sur l'icône "Afficher plus" et sélectionnez "nettoyer les données".

clean.png

Cliquez sur "Ajouter une étape", puis"remplacer".

clean5.png

Remplacez les mots "Rétroaction positive" par rien. Ensuite, cliquez sur "Évaluer" et vérifiez si le texte original est transformé en «100%». Une fois terminé, cliquez sur "Confirmer" et puis "OK".

clean3.png

Les données affichées dans l'aperçu s'actualiseront automatiquement et vous y verrez les données nettoyées.

clean4.png

Tips!

  • Découvrez plus de techniques de nettoyage de données ici.

 

7. Tester la tâche

La création de tâche de scraper est maintenant achevée. Mais il vous faut toujours tenir en compte qu'il est important de tester le flux de travail étape par étape, pour vous assurer que chaque étape fait ce qu'elle doit faire.Par exemple, si vous cliquez sur "Aller à la page Web", il devrait charger la page Web dans le navigateur intégré sans problème.

Lancez le flux de travail et cliquez sur toutes les étapes de haut en bas et de l'intérieur à l'extérieur pour les étapes imbriquées (telle que la pagination). Observez si la page Web marche comme prévu. La méthodologie détaillée de test est impliquée ici, n'hésitez pas à la consulter.

testrun5.gif

 

Après avoir testé chaque étape, c'est l'heure d' effectuer un test. Cliquez sur "Exécuter" et sélectionnez "Exécuter la tâche sur votre appareil".

run2.png

 

Regardez l'extraction de vos données en direct!local3.gif

 

 

8.  Planifier et exécuter

Maintenant, c'est entièrement prouvée que votre tâche fonctionne bien, vous pouvez ensuite extraire les données beaucoup plus rapidement en exécutant la tâche sur le cloud ou planier un calendrier pour qu'elle s'exécute à maintes fois.

Pour démarrer une exécution sur le cloud, cliquez sur "Exécuter" et sélectionnez "Exécuter la tâche sur le cloud".

runcloud.png

Pour planifier la tâche, cliquez sur "Exécuter" et sélectionnez"Planifier la tâche (Cloud)".

schedule_cloud.png

Choisissez la fréquence souhaitée et indiquez le jour et l'heure de l'exécution.

schedule4.png

 

9. Exporter vos données 

Accédez au tableau de bord et trouvez votre tâche, cliquez sur "Ouvrir l'état de la tâche" pour afficher les données extraites. Cliquez sur "Exporter les données" en bas et choisissez le format sous lequel vous voulez télécharger les données.

exportdata4.png

Tips!

Consultez ce tutoriel étape par étapepe pour savoir comment télécharger les données extraites.

 

 

Félicitations! Vous avez fait du bon travail pour en arriver là. Continuez à suivre nos tutoriels pour devenir le prochain expert en Web scraping. Nous espérons que ce n'est pas la fin de votre apprentissage mais le début de votre parcours de Web scraping.

Si vous avez des questions, qu'elles soient liées aux tâches, au web scraping ou aux services, laissez-nous vous aider. L'équipe Octoparse est honoré de pouvoir faire partie de votre expérience de web scraping. 

 

Artículo en español: Lección 7-¡Conclusión! Crea tu primera tarea de scraping

También puede leer artículos de web scraping en el sitio web oficial

 

 

Les articles récemment vus

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter