undefined
Blog > Web Scraping > Post

Web Scraping simple à l'aide de Google Sheets (mise à jour 2020)

Monday, September 13, 2021

Un outil de Web scraping peut automatiser le processus de copie et de collage répétitif. En fait, les feuilles de Google peuvent être considérées comme un Web scraper de base. Vous pouvez utiliser une formule spéciale pour extraire des données d'une page Web, importer les données directement dans des feuilles Google et les partager avec vos amis.

Dans cet article, je vais d'abord vous montrer comment créer un simple Web scraper avec Google Sheets. Ensuite, je vais le comparer avec un Web scraper automatique, Octoparse. Après l'avoir lu, vous aurez une idée claire de la méthode qui conviendrait le mieux à vos besoins spécifiques de Web scraping. 

 

 

 

Option#1: Créez un web scraper simple en utilisant ImportXML dans les feuilles de calcul Google

Étape 1: Ouvrez une nouvelle feuille Google.


Étape 2: Cliquez avec le bouton droit sur la page Web et cela fait apparaître un menu déroulant. Puis sélectionnez "inspecter". Appuyez sur une combinaison de trois touches: "Ctrl" + "Shift" + "C" pour activer "Selector". Cela permettrait au panneau d'inspection d'obtenir les informations de l'élément sélectionné dans la page Web.

 

 


Étape 3: Copiez et collez l'URL du site Web dans la feuille. 

 

Option#2: Essayons de récupérer les données de prix avec une formule simple: ImportXML


Étape 1: Copiez le Xpath de l'élément. Sélectionnez l'élément de prix et cliquez avec le bouton droit de la souris pour faire apparaître le menu déroulant. Sélectionnez ensuite «Copier», choisissez «Copier XPath».

 

 

 

 

Étape 2: Tapez la formule dans la feuille de calcul.

 = IMPORTXML ("URL", "Expression XPATH")


Notez que "l'expression Xpath" est celle que nous venons de copier à partir de Chrome. Remplacez le guillemet double " " dans l'expression Xpath par un guillemet simple ".

 

 

 


Option#3: Il existe une autre formule que nous pouvons utiliser:

= IMPORTHTML ("URL", "QUERY", Index) 

Avec cette formule, vous extrayez la table entière.

 

 

 

 

Voyons maintenant comment la même tâche de grattage peut être accomplie avec un web scraper, Octoparse.

 

Étape 1: Ouvrez Octoparse, créez une nouvelle tâche en choisissant «+ Tâche» sous le «Mode avancé»


Étape 2: Choisissez votre groupe de tâches préféré. Entrez ensuite l'URL du site Web cible et cliquez sur "Enregistrer l'URL". Dans ce cas: site Web de vente de jeux http://steamspy.com/


Étape 3: Le site Web Avis de vente de jeux s'affiche dans la section d'affichage interactive d'Octoparse. Nous devons créer une liste de boucles pour qu'Octoparse parcoure les listes. 

1. Cliquez sur une ligne du tableau (il peut s'agir de n'importe quel fichier du tableau) Octoparse détecte alors les éléments similaires et les met en surbrillance en rouge.

2. Nous devons extraire par lignes, donc choisissez «TR» (Table Row) dans le panneau de contrôle.

3. Une fois qu'une ligne a été sélectionnée, choisissez la commande «Sélectionner tous les sous-éléments» dans le panneau Conseils d'action.

 

Étape 4: Choisissez «Extraire les données dans la boucle» pour extraire les données.

Vous pouvez exporter les données vers Excel, CSV, TXT ou d'autres formats souhaités. Alors que la feuille de calcul nécessite que vous copiez et colliez physiquement, Octoparse automatise le processus. De plus, Octoparse a plus de contrôle sur les sites Web dynamiques avec AJAX ou reCaptcha.

 

Artículo en español: Simple Scraping con Google Sheets 2020 actualizado
También puede leer artículos de web scraping en el Website Oficia


Plus de ressources:

Les 3 Meilleures Façons d'Extraire les Données d'un Site Web

Top 30 des outils Big Data pour l'analyse de données

25 astuces pour développer votre entreprise avec l'extraction de données Web

Modèles de Web Scraping

Vidéo: Créez votre premier Scraper avec Octoparse 8.X

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter