undefined
Blog > Data Collection > Post

Comment créer un agrégateur de nouvelles avec la classification de texte ?

Monday, December 20, 2021

L'information explose au 21e siècle. Les nouvelles sont présentées avec des balises ou sous des catégories pour éviter que les lecteurs ne soient avalés par des informations non pertinentes. La classification de texte en NLP vient à la rescousse.

 

Pour atteindre cet objectif, un agrégateur d'actualités doit non seulement rassembler les flux d'actualités les plus récents, mais aussi les placer sous la bonne catégorie.

 

Compte tenu de la masse d'informations qui s'accumulent chaque jour, nous avons besoin d'une solution automatisée - web scraping et apprentissage automatique. Sinon, il est tout simplement impossible pour un être humain de gérer des informations volumineuses.

 

Ce blog a pour but de présenter quelques méthodes automatisées pour construire un agrégateur de nouvelles.

  • Extraction de données d'actualités
  • Mises à jour automatisées
  • Les trier en catégories

 

Sommaire

Agrégateurs de nouvelles

Comment récupérer des informations sur le Web ?

API

Web Scraping

Classification des nouvelles/textes avec NLP

Apprentissage superficiel : du manuel à l'automatisé

Apprentissage profond

Est-ce que le traitement du contenu/de l'information est légal ? 

Jetez un coup d'œil au RGPD

Vérifiez si vous êtes en conformité avec la loi américaine sur les droits d'auteur [U.S. Copyright Law]

Conclusions

 

Agrégateurs de nouvelles

Qu'est-ce qu'un agrégateur de nouvelles ? 

 

Selon Wikipédia, un agrégateur d'informations est "un logiciel client ou une application Web qui regroupe des syndications de contenu tels que des journaux en ligne, des blogs, des podcasts et des blogs vidéo (vlogs) en un seul endroit pour en faciliter la consultation". Le lecteur RSS en est un exemple classique.

 

Les agrégateurs de nouvelles ont évolué depuis 1999 si l'on considère le RSS comme un début. 

 

Un agrégateur de nouvelles prend désormais de nouvelles formes comme Google News, Feedly et Flipboard. Des fonctionnalités sophistiquées ont été développées pour offrir au public une meilleure expérience utilisateur.

 

Cependant, la classification des actualités est le principal élément qu'aucun agrégateur d'actualités ne peut ignorer.  

 

Comment récupérer des informations sur le Web ?

Tout d'abord, un site web agrégateur doit avoir la capacité d'agréger. Par conséquent, la première question à laquelle il faut répondre est la suivante :

 

Comment extraire efficacement les actualités de différentes sources ?

 

En général, il existe trois façons d'obtenir facilement des données Web :

    • API
    • Web scraping
    • Data service

 

Parfois, les gens ont recours à des fournisseurs de données pour les données Web, mais ce n'est pas pratique si vous gérez un agrégateur de nouvelles. Les actualités évoluent rapidement et sont diffusées à grande échelle. Nous avons besoin d'une solution plus rapide et plus rentable.

 

API

API signifie Application Programming Interface. C'est un accès offert par l'hôte et avec l'API connectée, les informations accordées peuvent être acquises directement auprès du client ou de l'application. 

 

Toujours confus ? Essayez cet article API en anglais simple et celui-ci en français.

 

Quand utiliserez-vous l'API pour extraire des informations pour votre site d'agrégation ? Voici une checklist :

  • Vous êtes un développeur expérimenté, capable de gérer des connexions API et de les maintenir.
  • La source d'actualités offre un service API au public.
  • L'API offre les flux d'actualités dont vous avez besoin pour votre site web.
  • Vous ne recueillez pas de données à partir d'une multitude de sources.

 

Toutes les sources ne proposent pas une API et, dans la plupart des cas, une API n'offre que des informations limitées au public.

 

Comme chaque API est proposée par différents fournisseurs, les moyens de s'y connecter diffèrent. Si vous vous approvisionnez en données auprès de 50 publications, vous devrez construire un pipeline de données 50 fois et le maintenir à l'avenir. 

 

C'est trop. Bien sûr, si vous avez une équipe de développement qui se consacre à la collecte de données, cela peut être une option.

 

Web Scraping

Contrairement aux API, le web scraping collecte des données à partir du fichier HTML.

 

Puisque vous obtenez des données écrites dans le code source HTML, vous n'êtes pas limité par l'hôte, et vous pouvez obtenir la plupart des données que vous pouvez voir dans le navigateur grâce au web scraping. 

 

C'est essentiel pour un agrégateur de nouvelles - obtenir les nouvelles !   

 

Je ne m'aventurerai pas sur des sujets comme le web scraping en Python ou Node.js. Pour être honnête, ils sont hors de ma portée. L'écriture de scripts pour gratter des données web nécessite de solides compétences et des efforts dans la création et la maintenance des robots de scraping. Ce que je veux partager, c'est une façon sans code d'obtenir des données par le biais du web scraping. 

 

Il s'agit d'utiliser un outil de scraping web no-code comme Octoparse. Il facilite le processus de création de scraper et nous libère de nombreux défis auxquels nous devons faire face si nous le faisons nous-mêmes. 

 

extract data with auto-detection

 

 

Vous devriez investir une ou deux semaines dans l'apprentissage de son interface et de son flux de travail afin de pouvoir commencer à construire vous-même des scrapers web. Pour un site Web d'agrégateur de nouvelles, les données doivent être mises à jour fréquemment. Des fonctionnalités telles que la planification des tâches pour le scraping automatique des données, l'intégration à la base de données peuvent vous faire gagner du temps.

 

 Inscrivez-vous ici pour un essai de 14 jours et l'équipe de soutien d'Octoparse vous accompagnera tout au long du parcours.

Classification des nouvelles/textes avec NLP

Text classification – the procedure of designating predefined labels for text – is an essential and significant task in many Natural Language Processing(NLP) applications.”

—— A Survey on Text Classification: From Shallow to Deep Learning [2020]

 

Apprentissage superficiel : du manuel à l'automatisé

Au début, les nouvelles étaient triées manuellement. Les éditeurs parcouraient à l'œil nu une multitude de nouvelles et d'articles, sélectionnaient ceux qui étaient qualifiés et les rangeaient dans les catégories désignées.

 

Le travail manuel est inutilement lent et source d'erreurs. Avec l'évolution de l'apprentissage automatique et du traitement automatique des langues, les éditeurs disposent de solutions plus automatisées pour classer les informations.

 

Des années 1960 aux années 2010, l'apprentissage superficiel a dominé les modèles de classification de texte, tels que Naive Bayes (NB), Méthode des k plus proches voisins (KNN). Les caractéristiques doivent être définies par les scientifiques des données et, lorsque cela est fait parfaitement, l'algorithme aidera à prédire les catégories d'informations sur la base de ces caractéristiques.

 

Note: Selon Christopher Bishop, une caractéristique [feature] est connue comme une propriété individuelle mesurable ou une caractéristique d'un phénomène observé.

 

 Source: Introduction to Shallow Machine Learning

Apprentissage profond

Depuis les années 2010, les modèles d'apprentissage profond ont prévalu (tels que CNN, GCN, ReNN) et ils sont maintenant plus largement appliqués pour classer du texte dans les applications NLP que les modèles d'apprentissage superficiel.

 

Pourquoi ?

 

La principale différence qui distingue les modèles d'apprentissage profond de ceux de l'apprentissage superficiel est que les méthodes d'apprentissage profond sont capables d'apprendre des caractéristiques, en dérivant leurs caractéristiques directement des données, alors que l'apprentissage superficiel s'appuie sur les humains pour les définir.

 

 A Survey on Text Classification: From Shallow to Deep Learning

 

Les méthodes d'apprentissage profond ne sont pas destinées à surpasser les modèles d'apprentissage superficiel. Vous pouvez choisir une méthode qui s'adapte à vos ensembles de données et cela peut dépendre de la façon dont vous voulez que les textes soient classés.

 

Étude de cas : Création d'un agrégateur de nouvelles à partir de zéro

 

Est-ce que le traitement du contenu/de l'information est légal ? 

Il s'agit d'une question sérieuse. Personne ne veut créer un site web au risque d'enfreindre la loi et d'aller en prison. Et il est également complexe d'y répondre. Voici quelques réflexions à partager, et si vous êtes préoccupé par la question de la légalité, consultez votre conseiller juridique lorsque vous aurez décidé de votre modèle commercial.

 

    • Jetez un coup d'œil au RGPD. 

Il s'agit de la loi sur la protection des données mise en œuvre par l'UE. Vous devez être prudent lorsque vous récupérez des données personnelles de résidents de l'UE.

 

« Une donnée à caractère personnel ou DCP (couramment « données personnelles » ) correspond en droit français à toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d'identification ou à un ou plusieurs éléments qui lui sont propres »  

 

Si vous récupérez des données personnelles de citoyens de l'UE, il vaut mieux vous assurer que vous avez une raison légale de le faire, par exemple, avec un consentement accordé ou un contrat signé. Sinon, vous le faites dans l'intérêt public.

 

Si vous scrapez des données appartenant à un citoyen ou à une entité des États-Unis, faites attention à l'utilisation équitable de ces données. Quatre aspects sont mentionnés dans la loi:

  1. Objectif et caractère de l'utilisation, y compris si l'utilisation est commerciale ou à des fins éducatives sans but lucratif.
  2. Nature de l'œuvre protégée par le droit d'auteur : L'utilisation d'une œuvre plus créative ou imaginative (telle qu'un roman, un film ou une chanson) est moins susceptible de soutenir l'utilisation équitable que l'utilisation d'une œuvre factuelle (telle qu'un article technique ou une nouvelle).
  3. La quantité et la substantialité de la partie utilisée concernant l'œuvre protégée par le droit d'auteur dans son ensemble.
  4. L'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée par le droit d'auteur.  

 

Certains projets de web scraping se situent dans une zone grise et il n'est pas facile de répondre par oui ou par non à cette question. Il existe de nombreux facteurs liés à la légalité et si vous êtes intéressé, certains cas réels dans l'histoire peuvent vous apporter un éclairage supplémentaire sur cette question.

 

Conclusions

La création d'une entreprise demande bien sûr beaucoup d'efforts. Mais elle est accessible lorsque l'on dispose de quelques connaissances de base et de moyens pour y parvenir. En créant un site Web d'agrégateur de nouvelles, vous pouvez vous lancer dans le web scraping pour l'extraction de données et les techniques NLP pour le traitement des données.

 

Octoparse répondra toujours à tous vos besoins en matière de données Web. Si vous voulez essayer la magie du web scraping, téléchargez Octoparse ici. Un essai de 14 jours est également disponible pour vous permettre de vérifier si notre service vous convient. 

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter