3 manières pour gratter les données d'une table
Thursday, June 16, 2022
données de table de Unicorn Startup
Nous présenterons 3 façons de récupérer les données d'une table à partir des pages Web pour ceux qui ne connaissent presque rien au codage :
- Google Sheets
- Octoparse (outil de grattage Web)
- Langage R (en utilisant le package rvest)
3 façons de récupérer les données d'une table
1) Google Sheets
Google sheets offre une excellente fonction - Import Html , qui permet aux utilisateurs de récupérer les données d'un tableau sur les pages HTML à l'aide d'une expression, =ImportHtml (URL, "table", num).
Étape 1 : Ouvrez une nouvelle feuille Google Sheets et remplissez une des cases blanches avec l'expression =ImportHtml .
Une brève introduction de la formule et de ses paramètres sera affichée.
Étape 2 : Saisissez l'URL (site d'exemple : https://www.cbinsights.com/research-unicorn-companies) et ajustez le champ d'index selon vos besoins.
2) Outil de web scraping pour gratter les tableaux
Tout d'abord, téléchargez Octoparse et lancez-le.
Étape 1 : Cliquez sur " Avanced Mode " pour démarrer un nouveau projet.
Étape 2 : Entrez l'URL cible dans la case et cliquez sur " Save " pour ouvrir le site Web dans le navigateur intégré d'Octoparse.
Étape 3 : Créez une pagination en 3 clics :
a) Cliquez sur le bouton " Next " à la fin de la table dans le navigateur intégré
b) Cliquez sur " Loup click next page " dans le panneau " Tips d'actions "
Maintenant, vous verrez qu'une boucle de pagination a été créée dans la boîte de workflow.
Étape 4 : Grattez une table à travers les étapes ci-dessous.
a) Cliquez sur la première cellule de la première ligne du tableau
b) Cliquez sur l'icône d'expansion dans le panneau " Tips d'actions " jusqu'à ce que toute la ligne soit surlignée en vert (généralement, la balise devrait être TR)
c) Cliquez sur " Select sub-elements " dans le panneau " Tips d'actions ", puis sur " Extract data ".
La boucle de grattage de la table est maintenant ajoutée dans le workflow.
Étape 5 : Extraire les données
3)Langage R (en utilisant le package rvest)
Dans ce cas, nous utiliserons ce site https://finance.yahoo.com/most-active comme un exemple pour vous montrer comment utiliser rvest pour gratter des tables.
Avant de commencer à écrire les codes, vous devez connaître d'abord quelques grammaires de base sur le package rvest.
html_nodes() : Sélectionner une partie particulière dans un document. Vous pouvez choisir d'utiliser des sélecteurs CSS, comme html_nodes(doc, "table td"), ou des sélecteurs xpath, html_nodes(doc, xpath = "//table//td")
html_tag() : Extraire le nom de la balise. html_text(), html_attr() et html_attrs() sont tous des grammaires de ce genre
html_table() : Analyser les tableaux HTML et les extraire vers R Framework.
En plus des fonctions mentionnées, il y a encore d'autres fonctions qui peuvent simuler le comportement de navigation humain. Par exemple, html_session(), jump_to(), follow_link(), back(), forward(), submit_form(), etc.
Dans ce cas, nous devons utiliser html_table() pour atteindre notre objectif : récupérer les données d'une table.
Téléchargez R(https://cran.r-project.org/) d'abord.
Étape 1 : Installez rvest.
Étape 2 : Commencez à écrire des codes.
Library(rvest) : Importer le package rvest
Library(magrittr) : Importer le package magrittr
URL : L'URL cible
Read HTML : Accéder aux informations à partir de l'URL cible
List : Lire les données du tableau
Étape 3 : Après avoir écrit tout le code dans le R penal, cliquez sur " Entrer " pour exécuter le script. Les informations de la table seront ainsi extraites immédiatement.
Posts les plus populaires
- 1 . Exporter les résultats de recherche de Google Maps vers Excel
- 2 . Scraping TripAdvisor pour obtenir des données d'hôtels/restaurants facilement
- 3 . Utiliser Google Sheets pour web scraping simple (mise à jour 2023)
- 4 . 5 meilleurs outils pour scraper Google Maps en 2023
- 5 . 10 Meilleur Web Scraper Open Source en 2023
Posts par sujet