undefined
Blog > Connaissances > Post

5 choses que vous devez savoir avant de scraper des données de Facebook

Tuesday, September 28, 2021

 

1. En fait, Facebook interdit tout scraper, selon son fichier robots.txt.

 Lorsque vous prévoyez de scraper un site Web, vous devez toujours vérifier son fichier robots.txt en premier. Robots.txt est un fichier utilisé par les sites Web pour indiquer aux "robots" si ou comment le site doit être scrapé ou analysé et indexé. Vous pouvez accéder au fichier en ajoutant "/robots.txt" à la fin du lien vers votre site Web cible.

 

Entrez https://www.facebook.com/robots.txt dans votre navigateur et vérifions le fichier robots de Facebook. Ces deux lignes se trouvent au bas du fichier:

 

                                                                      

The lines state that Facebook prohibits all automated scrapers. That is, no part of the website should be visited by an automated crawler.Les lignes indiquent que Facebook interdit tous les scrapers automatisés. Autrement dit, aucune partie du site Web ne doit être visitée par un crawler automatisé.

Pourquoi devons-nous respecter le fichier robots.txt?

 

Les sites Web utilisent le fichier robots pour spécifier un ensemble de règles sur la manière dont vous ou un robot devez interagir avec eux. Lorsqu'un site Web bloque tout accès aux robots d'exploration, la meilleure chose à faire est de laisser ce site seul. Suivre le fichier robots, c'est éviter la collecte de données contraire à l'éthique ainsi que toute ramification légale.

  

2. Techniquement, le seul moyen légal de collecter des données de Facebook avec un crawler est d'obtenir une autorisation écrite préalable.

 

Facebook met en garde dès le début de son fichier robots: "l'exploration de Facebook est interdite sauf si vous avez une autorisation écrite expresse."

 

                           

Vérifiez le lien sur la deuxième ligne, vous pouvez trouver les conditions de collecte automatisée de données de Facebook, révisées pour la dernière fois le 15 avril 2010.

 

       

 

Comme tous les autres termes et conditions dans le monde, les conditions de collecte automatisée de données de Facebook sont longues (avec une taille de police anormalement petite) et pleines de termes juridiques que peu de gens pourraient pleinement comprendre.

 

Ces termes semblent si familiers que nous les verrions chaque fois que nous installons une nouvelle application sur notre téléphone mobile ou que nous nous inscrivons à un site Web.

  • "En obtenant la permission de ... vous acceptez de respecter ..."
  • "Vous acceptez que vous ne le ferez pas…"
  • "Vous acceptez que toute violation de ces conditions puisse entraîner…"

 

Cependant, ils ne sont peut-être pas les mêmes innocents.

 

En tant que géant des médias sociaux, Facebook a de l'argent, du temps et une équipe juridique dédiée. Si vous continuez à scraper Facebook en ignorant leurs conditions de collecte automatisée de données, ce n'est pas grave, mais sachez simplement qu'il vous a été rappelé au moins d'obtenir une «autorisation écrite». Parfois, ils peuvent être assez agressifs envers le scraping illégitime. 

 

3. Mais vous êtes sûrement toujours en mesure de récupérer les données de Facebook selon vos besoins

 

Si vous avez effectué une crawling sans respecter le fichier robots.txt, cela ne signifie pas que vous vous retrouverez dans des complications juridiques parce que vous avez violé les règles.

 

Les données extraites des médias sociaux sont sans aucun doute l'ensemble de données le plus vaste et le plus dynamique sur le comportement humain et les événements du monde réel. Depuis plus d'une décennie, des chercheurs et des experts commerciaux du monde entier ont collecté des informations sur Facebook à l'aide de scrapers, en produisant des échantillons représentatifs pour comprendre les individus, les groupes et la société, ainsi qu'en explorant de toutes nouvelles opportunités cachées dans les données.

 

Pour les utilisateurs, ils conviendraient que l'utilisation des données sociales n'est pas toujours une mauvaise chose. Par exemple, c'est l'utilisation des données sociales pour personnaliser le marketing qui maintient Internet gratuit et rend les publicités et le contenu que nous voyons plus pertinents.

 

Outils que vous pouvez utiliser pour obtenir des données Facebook

 

En réponse au tollé public suite au scandale Cambridge Analytica, Facebook a mis en place des restrictions d'accès dramatiques sur ses API en avril de l'année dernière.

 

Les interfaces de programmation d'application (API) sont des interfaces logicielles conçues pour être utilisées par des programmes informatiques, qui permettent aux utilisateurs de récupérer des données à grande échelle avec des processus automatisés. De nos jours, de nombreuses entreprises fournissent une API publique pour permettre aux utilisateurs, aux chercheurs et aux développeurs d'applications tiers d'accéder à leur infrastructure.

 

Le verrouillage de l'API de Facebook et les restrictions radicales d'accès aux données en tant que tentative de protéger ses informations utilisateur sont tout à fait discutables. Mais encore, en conséquence, les gens n'ont plus qu'un seul choix.

 

Sans APIs, nous pourrions désormais obtenir des données Facebook uniquement via les interfaces pour les utilisateurs, c'est-à-dire les pages Web. C'est exactement à ce moment que les web scrapers entrent en jeu. Nous avons écrit un blog sur les meilleurs outils de scraping des réseaux sociaux. 👉 Consultez notre article Top 5 des outils de scraping des médias sociaux pour 2020

 
4. Une fois le RGPD en vigueur, cependant, il y a plus de chances d'être poursuivi si vous essayez de récupérer des données personnelles

 

Le règlement général de l'UE sur la protection des données, ou GDPR comme on l'appelle plus communément, est entré en vigueur le 25 mai 2018. On dit qu'il s'agit du changement le plus important de la réglementation sur la confidentialité des données en 20 ans, imposant des changements radicaux dans tout de la technologie à la publicité et la médecine à la banque.

 

Les entreprises ou organisations qui détiennent et traitent de grandes quantités de données sur les consommateurs, telles que les entreprises technologiques comme Facebook, sont les plus touchées par le RGPD. Avant, il appartenait à ces entreprises d'appliquer les règles de protection des données des utilisateurs. Désormais sous GDPR, ils doivent s'assurer qu'ils respectent pleinement la loi.

 

La bonne nouvelle est…

 

Le RGPD ne s'applique qu'aux données personnelles.

 

Ici, les «données personnelles» font référence aux données qui pourraient être utilisées pour identifier directement ou indirectement une personne spécifique. Ce type d'informations est connu sous le nom d'informations personnelles identifiables (PII), qui comprennent le nom, l'adresse physique, l'adresse e-mail, le numéro de téléphone, l'adresse IP, la date de naissance, les informations sur l'emploi et même l'enregistrement vidéo / audio d'une personne.

Si vous ne récupérez pas de données personnelles, le RGPD ne s'applique pas.

 

 En bref, à moins que vous n'ayez le consentement explicite de la personne, il est désormais illégal de récupérer les données personnelles d'un résident de l'UE en vertu du RGPD.

 


5. Et vous pouvez essayer d'autres sources Facebook pour votre projet de scraping

 

Comme mentionné ci-dessus, bien que Facebook interdise tous les rcrawlers automatisés, il est toujours techniquement possible de récupérer les données du site. Le problème est -

 

C'est risqué.

 

Outre les ramifications juridiques, vous pourriez constater qu'il peut devenir plus difficile de récupérer régulièrement les données souhaitées, car Facebook bloque les adresses IP suspectes, et pourrait même mettre en œuvre des mécanismes de blocage plus difficiles à l'avenir, ce qui pourrait rendre totalement le raclage des données du site. impossible.

 

Par conséquent, il est recommandé de rechercher des sources plus fiables de données sur les réseaux sociaux afin d'obtenir des informations commerciales et des informations sur votre marché cible.

 

 

Quatre sources de données alternatives à Facebook

 

  • Twitter

Avec environ 500 millions de tweets générés par jour, Twitter est une mer d'informations qui peuvent être utilisées comme une excellente source pour la surveillance de la marque et la mesure du sentiment des clients. Contrairement à Facebook, Twitter permet aux gens de récupérer des données à grande échelle via les API de Twitter.

 

  • Reddit

Ayant autant d'utilisateurs que Twitter, Reddit est l'une des plus grandes sources d'UGC (User Generated Content) au monde. Reddit fournit également des API publiques qui peuvent être utilisées à diverses fins telles que la collecte de données, les robots de commentaires automatiques ou même pour aider à la modération des sous-reddit.

 

  • VKontakte (VK)

VK est une plate-forme de médias sociaux russe destinée aux Russes et aux autres utilisateurs d'Europe de l'Est. De loin, il compte plus de 90 millions de visiteurs uniques par mois et 9 milliards de pages vues chaque jour. En tant qu'entreprise russe, VK adhère aux lois russes, et si vous vérifiez son fichier robots, vous constaterez qu'il est assez convivial avec les robots d'exploration.

 

  • Instagram

Propriété de Facebook, Instagram se concentre davantage sur le partage de contenu visuel, en particulier des vidéos et des images. La plateforme est utilisée par de nombreuses marques pour humaniser leur contenu afin de mieux connecter les clients et accroître la notoriété de la marque. Parallèlement au verrouillage des données de Facebook l'année dernière, cependant, Instagram a également mis en place des restrictions radicales sur l'accès aux données, ce qui a rendu le site beaucoup moins fiable qu'auparavant.

 

日本語記事:Facebookからデータを収集する前に知っておくべき5つのこと
Webスクレイピングについての記事は 公式サイトでも読むことができます。
Artículo en español: 5 Cosas que Debes Saber Antes de Scraping de Facebook
También puede leer artículos de web scraping en el Website Oficial

 

Auteur: Ashley Weldon

Plus de ressources
 

Top 5 des outils de Scraping des réseaux sociaux

Scraper les tweets de Twitter sans codage

Extraire Instagram avec Octoparse

Gratter les informations vidéo de YouTube

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter