undefined
Blog > Connaissances > Post

Web Scraping 101: 10 mythes que tout le monde devrait connaître

Tuesday, September 14, 2021

Photo d'Amel Majanovic sur Unsplash

 

1. Web Scraping est illégal

De nombreuses personnes ont de fausses impressions sur le web scraping. En fait, Web scraping n'est pas illégal en soi, mais le problème est qu'il y toujours des gens qui l'utilisent sans l'autorisation du propriétaire du site et sans respecter les conditions d'utilisation. Selon le rapport, 2% des publications sur site Web couvre le risque d'être volées à cause d'utilisations malveillantes de ce contenu avec l'aide du web scraping. Même s'il n'y a pas de loi ou de terme qui prescrite clairement son utilisation, il y a encore pas mal de réglementations légales qui l'entoure. Par example: 

 

2. Web scraping et web crawling sont les mêmes

Le Web scraping implique l'extraction de données spécifiques sur une page Web ciblée, par exemple, l'extraction de données sur les prospects de vente, la liste des biens immobiliers et le prix des produits. Alors que le Web crawling est le travail de moteurs de recherche: il scanne et indexe l'ensemble du site Web ainsi que ses liens internes. "Crawler" navigue entre les pages Web sans objectif spécifique.

 

3. Vous pouvez scraper n'importe quel site Web

Il arrive souvent que les gens demandent des données comme des adresses e-mail, des publications Facebook ou des informations LinkedIn. D'après un article intitulé "L'exploration Web est-elle légale?" il est important de connaître les règles de Web scraping avant de l'exécuter:

 

  • Les information privées qui nécessitent un nom d'utilisateur et le mot de passe ne peuvent pas être scrapées.
  • Le respect des CGU (Conditions d'utilisation) qui interdit explicitement l'action de web scraping.
  • Ne scrapez pas des données protégées par les droits d'auteur.

 

Une personne peut être accusée en vertu de plusieurs lois dans ce domaine. Par exemple, si vous avez gratté des informations confidentielles et les a vendues à un tiers tout en négligeant la lettre de désistement envoyée par le propriétaire du site, vous risquez d'être accusé en vertu de la loi sur l'intrusion de biens, de la Violation du Digital Millennium Copyright Act (DMCA), de Violation de la loi sur la fraude et les abus informatiques (CFAA) et du détournement.

Mais cela ne signifie pas que vous ne pouvez pas gratter les publications de réseaux sociaux comme Twitter, Facebook, Instagram et YouTube. Ces sites sont tous gentils avec les outils de scraping qui respectent les dispositions du fichier robots.txt. Pour Facebook, vous devez obtenir son autorisation écrite avant de démarrer votre collecte automatique de données.

 

4. Vous devez être familier avec les codes

Un outil de Web scraping (outil d'extraction de données) est très utile pour les personnels non technologiques, comme ceux du marketing, les statisticiens, les consultants financiers, les investisseurs en bitcoins, les chercheurs, les journalistes, etc. Octoparse vous propose une fonctionnalité unique - des modèles de Web scraping pré-formatés, couvrant plus de 14 catégories sur plus de 30 sites Web, y compris Facebook, Twitter, Amazon, eBay, Instagram et bien d'autres. Tout ce que vous reste à faire est d'entrer les mots-clés / URL au paramètre sans aucune nécessité de configuration complexe. Le Web scraping avec Python prend en revanche du temps. Bref, un modèle de Web scraping est efficace et convivial pour vous aider à capturer des données .

 

5. Vous pouvez utiliser des données récupérées pour faire n'importe quoi

Il est tout à fait légal d'utiliser des données de sites Web à des fins de consommation publique ou à des fins d'analyse. Cependant, il est illégal de récupérer des données confidentielles à des fins lucratives. Par exemple, il est illégal de récupérer des informations de contact privées sans autorisation et de les vendre à un tiers à des fins lucratives. En plus, reconditionner les données récupérées comme le vôtre sans en citer la source n'est non plus éthique. Vous devez toujours tenir en compte qu'aucun spam, aucun plagiat et aucune utilisation frauduleuse des données n'est autorisés par la loi.

 

 

 

6. Web scraper est tout-puissant

Vous avez peut-être déjà rencontré des sites Web spécifiques qui modifient souvent leur composition ou leur structure. Ne soyez pas frustré si votre scraper n'arrive pas à idendifier les données. Il y pourrait avoir plusieurs raisons. Ce n'est pas forcément parce qu'il vous a identifié comme un robot qu'il vous a bloqué. Cela peut également être causé par de multiples géo-localisations ou l'accès machine fréquent. Dans ces cas-là, il est normal qu'un scraper Web n'arrive pas à analyser le site Web pour configurer la règle. 

7. Vous pouvez gratter avec une vitesse rapide 

Vous avez peut-être déjà vu des publicités de scraper qui vous indiquent à quel point leurs processus d'exploration sont rapides. Certains vous ont même promis qu'ils peuvent collecter des données en quelques secondes. Cependant, vous deviendrez le contrevenant qui sera accusé une fois la dommage est causée. C'est parce qu'une demande de données évolutive rapidement surchargera un serveur Web, ce qui pourrait entraîner une panne du serveur. Dans ce cas-là, vous être absolument responsable des dommages en vertu de la loi de "Violation de propriété" (Dryer et Stockton en 2013). Si vous ne savez pas si le site Web peut être scrapé ou non, veuillez demander au fournisseur de service de scraping Web. Octoparse en est un fournisseur responsable qui place la satisfaction des clients en premier lieu. Il est d'une importance cruciale pour Octoparse d'aider nos clients à résoudre le problème et à réussir.

 

8. API et Web scraping sont les mêmes

L'API est comme un canal dont la fonction est de transporter votre demande à un serveur Web pour obtenir les données souhaitées. L'API vous renverra les données au format JSON via le protocole HTTP. Par exemple, l'API Facebook, l'API Twitter et l'API Instagram. Cependant, cela ne signifie pas que vous pouvez obtenir tous les données que vous demandez. Le Web scraping peut visualiser ce processus en vous permettant d'interagir avec les sites Web. Octoparse propose des modèles de Web scraping pré-formatés, ce qui les rende encore plus convivial pour aider les professionnels non technologiques à extraire des données: ils n'ont qu'à remplir les paramètres avec des mots-clés / URL.

 

9. Les données scrapées est inutile pour notre entreprise avant d'être nettoyées et analysées

De nombreuses plates-formes d'intégration de données peuvent aider à visualiser et analyser les données. En comparaison, il semble que le scraping de données n'ait pas d'impact direct sur la prise de décision commerciale. Le scraping Web extrait en effet les données brutes à partir des pages Web qui doivent être traitées pour obtenir des informations telles que l'analyse des sentiments. Cependant, certaines données brutes peuvent être extrêmement précieuses une fois être maîtrisées par les mains des mineurs d'or.

Si que vous utilisez le Web scraping modèle de Google Search d'Octoparse pour collecter les résultat de recherche naturels, vous pouvez extraire des informations telles que les titres et les méta descriptions sur les articles de vos concurrents pour déterminer vos stratégies de référencement; Et pour les secteurs de vente au détail, le web scraping peut être utilisé pour surveiller les prix et les distributions des produits. Par exemple, Amazon peut explorer Flipkart et Walmart dans le catalogue "Électronique" pour évaluer les performances de leurs articles électroniques.

10. Le web scraping ne peut être utilisé dans la commerce

En plus de la génération de leads, de la surveillance des prix, de l'analyse de marché pour les entreprises, le web scraping est aussi largement utilisé dans d'autres domaines divers. Par exemple, les étudiants peuvent également utiliser un modèle de Web scraping de Google Scholar pour effectuer des recherches sur les papiers. Les agents immobiliers peuvent aussi l'utiliser à mener des recherches sur le logement et à prédire le marché du logement. Vous pourrez l'utiliser à gratter les réseaux sociaux et les flux RSSpour pour trouver des influenceurs Youtube ou Twitter pour promouvoir votre marque ou votre propre agrégation d'actualités couvrant les seuls sujets que vous souhaitez.

 

Auteur: Ashley

Ashley est une spécialiste de données et une blogueuse passionnée avec de riches expériences sur le Web scraping. Elle se concentre sur la capture et l'annalyse de données Web, visant à donner aux entreprises des informations exploitables. Lisez son blog ici pour découvrir des conseils pratiques et des applications sur l'extraction de données Web

Artículo en español: 10 Malentendidos sobre El Web Scraping También puede leer artículos de web scraping en El Website Oficial

 

Sources:

https://www.octoparse.com/blog/a-revolutionary-web-scraping-software-to-boost-your-business

Dryer, A.J., and Stockton, J. 2013. "Internet 'Data Scraping': A Primer for Counseling Clients," New York Law Journal. Retrieved from https://www.law.com/newyorklawjournal/almID/1202610687621

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter