undefined
Blog > Data Collection > Post

News scraping avec Octoparse |extraire tant les métadonnées que l'article des actualités

Friday, February 17, 2023

Dans un monde informatique, la média traditionnelle se tourne vers Internet pour développer la presse en ligne et on peut donc facilement lire des nouvelles sur tous les évènements qui se passent dans tous les coins du monde. Cela facilite le travail des chercheurs car ils peuvent maintenant collecter par Internet des nouvelles d'actualités pour alimenter leurs analyses ou rapports. En plus, les agences de presse en profitent pour savoir à temps ce qui se passe dans d'autres endroits. Cependant, vu le nombre volumieux de nouvelles publiées sur des sites de presse innombrables, les collecter manuellement est frustrant et même impossible.

Cet article explique tout ce que vous devez savoir sur le news scraping tout en introduisant un méthode d'extraire tant les métadonnées que l'article complet des nouvelles d'actualité facilement et rapidement.

 

 

 

 

 

À propos du news scraping (le scraping d'actualités)

Le news scraping est un terme spécifique utilisé pour le scraping mené sur des sites de nouvelles d'actualités dans la fin d'y extraire des articles ou d'autres données. De nos jours, le scraping d'actualités est assez populaires tant entre les chercheurs que les hommes de business. Les professeurs et les étudiants l'utilisent pour mener des analyses ou des études sur un certain évènement social, les économiques ou les poticiens en profitent dans leurs rapports sur l'économie, la politique ou la société, tandis que les travailleurs des entreprises s'en servent pour veiller sur leur réputation ou sur les critiques publiques sur les produits nouvellement lancés, et beaucoup d'autres annonces clés et nécessaires pour les entreprises.

 

Quand on parle de l'extraction de données, on pose souvent la question de légailité. Donc, est-il légal, le scraping de sites d'actualités ?

Oui, il est légal de récupérer des données publiques et ouvertement disponibles sur des sites d'information. L'extraction de données publiques sur n'importe quel site Web est légale, mais vous devez vous renseigner sur les lois et réglementations locales pour connaître les aspects juridiques de l'extraction de données sur les sites d'actualité.

Certaines données disponibles sur les sites d'actualités peuvent être privées et ne pas être autorisées à être scrappées parce qu'elles ont été restreintes par les autorités mondiales de réglementation des données.

 

 

Pourquoi choisir Octoparse pour le scraping d'actualités ?

Pour effectuer le scraping d'actualités, de nombreux outils sont à votre disposition, parmi lesquels Octoparse.

Octoparse est un des logiciels les plus populaires d'extraction de données, qui est disponible sur Windows et Mac. En tant que outil de non-codage, Octoparse a pour but de rendre le web scraping accessible à tous pour que tout le monde, surtout ceux qui n'ont pas de connaissance technique mais ont besoin d'un grand nombre de données, puissent scraper les données sans codage.

 

Facile à utiliser

Octoparse est premièrement réputé par sa simplicité. Grâce à son interface "pointer-cliquer", les utilisateurs peuvent extraire les données en trois étapes et transformer les pages Web en feuilles de calcul structurées en quelques clics. Dans la fin de faciliter l'utilisation, Octoparse propose des modèles de web scraping prêts à l'usage. Et avec la fonction de détection automatique, les utilisateurs peuvent régler facilement les sites web que les modèles ne couvrent pas encore.

 

Puissant dans l'extraction de données

Octoparse peut traiter tous les sites Internet, quelle que soit la structure, la façon de chargement de contenu : défilement infini, liste déroulante, AJAX, authentification de connexion. De plus, Octoparse est équipé d'un Service Cloud, permettant une extraction plus rapide et une extraction basée sur Cloud. Donc, il n'y a pas de besoin de veille manuelle et on peut exécuter les tâches de scraping 24/7, et plannifier les tâches de scraping à à n'importe quel moment, quotidiennement, hebdomairement, et à n'importe quelle fréquence. Egalement sont disponibles les proxies IP, aidant à éviter tout blocage des IPs des utilisateurs. En plus, Octoparse offre également des solutions de Captcha pour qu'on puisse scraper des sites difficiles.

 

Par conséquent, vous pouvez récupérer un grand nombre de données d'actualités avec Octoparse sans effort.

Premièrement, récupérer les données depuis de multiples canaux. Vous pouvez l'utiliser pour la collecte de communiqués de presse, de revues universitaires, d'actualités d'entreprises, de newsletters, d'articles d'actualité, de blogs, d'éditeurs et de magazines, et bien plus encore, à partir d'un large ensemble de sources de données, avec la plus grande facilité.

Deuxièmement, extraire divers champs de données. Avec Octoparse, vous pouvez non seulement enregistrer l'article original des nouvelles, mais également des métadonnées, comme titre, description, date de publication, auteur, URL des images, catégories, URL des références, flux RSS, agrégation de nouvelles pertinentes par mots-clés et plus encore.

 

 

Comment extraire tant le contenu que les métadonnées des nouvelles sans codage ?

Sans plus attendre, voyons maintenant comment utiliser Octoparse pour extraire le contenu et les métadonnées des nouvelles sans codage.

Dans cette partie, je vais choisir le site bfmtv comme un le site d'exemple. Si vous y êtes intéressé pour le scraping d'actualités, je vous invite à télécharger Octoparse et l'installer pour suivre les étapes suivantes, et vous finirez par collecter les données dont vous avez besoin.

 

Étape 1 Entrer l'URL dans Octoparse

Ici, nous ciblons la réforme des retraites. Il vous faut faire cette recherche dans votre navigateur sur le site bfmtv.com, et puis le copier-coller dans la page d'accueil d'Octopase. Ensuite, cliquer sur "Start" pour commencer notre scraping d'aujourd'hui.

Mon URL est https://www.bfmtv.com/economie/economie-social/reforme-des-retraites_DN-202108310622.html

news scraping

 

Étape 2 Lancer l'auto-détection

La nouvelle version d'Octoparse est équipée dans cette fonctionnalité merveilleuse. Il suffit aux utilisateurs de simplement cliquer sur "Auto-detect webpage data" pour que Octoparse détecte la structure de la page et puis crée automatiquement un workflow pour vous. Ainsi, on a échapé à la création de la pagination et de la boucle (loop).

news scraping

 

Étape 3 Checker le workflow créé par Octoparse

Par la capture suivante, on voit clairement que la pagination et la boucle sont déjà comprises dans le workflow. De plus, vous pouvez surnommer les champs de données dans le panneau de "Data Preview" au bas. S'il y a des champs indésirés, vous pouvez également les supprimer.

news scraping

 

Étape 4 Entrer dans la page d'article complet

Cliquer sur le premier titre et sélectionner "Click element".

news scraping

 

Étape 5 Extraire les métadonnées

Cliquer le nom de l'auteur, et puis choisir "Extract text of the selected element". Ensuite, répéter la même étape pour d'autres champs de données qui vous intéressent, comme nom de l'auteur, data de publication, balise, etc.

news scraping

 

Étape 6 Extraire le texte complet

En inspectant le code HTML, on peut savoir que le texte complet est inséré dans un [div], par cela, le Xpath est //div[@id='content_progress']/div/div

Curieux de savoir comment j'ai écrit ce Xpath ? Veuillez consulter ce tutoriel sur Xpath.

1 - Cliquer sur ce petit icône, et puis sélectionner "Capture data on the page".

news scraping

2 - Entrer le Xpath de l'article complet. Et volà !

news scraping

 

Étape 7 Lancer la tâche de scraping

Cliquer sur "Run" en haut à droite, et choisir le mode selon vos besoins.

news scraping

 

Étape 8 exporter les données

Les données peuvent être téléchargées dans des formats comme Excel, CSV ou être exportées vers d'autres systèmes comme Google Sheets, Zapier, etc.

Voilà mes résultats.

news scraping

 

C'est tout ! J'espère que ces étapes vous servent d'un guide dans votre extraction de données. En effet, cela ne se limite dans le scraping des nouvelles d'actuaités, vous pouvez également l'employer pour extraire l'article complet des blogs, dse réseaux sociaux ou d'autres. Allez faire votre découerte !

 

 

Des sites de nouvelles d'actualités en France

Les sites de nouvelles d'actualités sont un des sites qu'on consulte presque tous les jours.

Voici une liste de sites d'actualités en France, classés par nombre de visiteurs selon les données de SimilarWeb en janvier 2022

  1. Le Figaro - 132 millions de visites mensuelles

  2. Le Monde - 109 millions de visites mensuelles

  3. L'Équipe - 40 millions de visites mensuelles

  4. 20 Minutes - 36 millions de visites mensuelles

  5. BFM TV - 33 millions de visites mensuelles

  6. CNEWS - 17 millions de visites mensuelles

  7. Franceinfo - 16 millions de visites mensuelles

  8. RMC Sport - 11 millions de visites mensuelles

  9. Capital - 9 millions de visites mensuelles

  10. Les Echos - 8 millions de visites mensuelles

  11. La Croix - 6 millions de visites mensuelles

  12. Sud Ouest - 6 millions de visites mensuelles

  13. Le Parisien - 5 millions de visites mensuelles

  14. Ouest-France - 5 millions de visites mensuelles

  15. Libération - 4 millions de visites mensuelles

Il convient de noter que ces chiffres sont sujets à des variations et que différentes sources peuvent avoir des estimations différentes.

 

La technique de web scraping sert d'un outil d'efficacité d'extraction de données. Après cela, c'est le voyage de découvrir la valeur qui est cachée dans les données. Bon scraping et bon travail !

octoparse téléchargement

 

Lecture conseillée

3 meilleurs outils software de récupération d'articles

Scraper rapidement des articles de blogs avec un outil de web scraping

5 TikTok scrapers pour extraire les informations des vidéos

3 façons utiles pour récupérer les résultats de recherche de Google

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter