undefined
Blog > Data Collection > Post

Extraire automatiquement les données du site Web vers Excel

Wednesday, September 29, 2021

Pour extraire des données de sites Web, vous pouvez profiter d'outils d'extraction de données tel qu'Octoparse. Ces outils peuvent extraire automatiquement les données des sites Web et les enregistrer dans de nombreux formats tels qu'Excel, JSON, CSV, HTML ou dans votre propre base de données via des APIs. Dans seulement quelques minutes, des milliers de lignes de données serons extraites. Ce qui serait le plus attirant pour vous, c'est qu'aucun codage n'est requis dans ce processus.

 

Prenons Google Search comme un exemple. Supposons que nous désirons les informations relatives à "smoothie", tous les titres, descriptions et URL de pages Web des résultats de la recherche. Pour extraire des données de Google Search, vous pouvez utiliser un modèle de grattage Web. Un modèle est un crawler prédéfini qui peut être utilisé directement sans besoin d'être configuré. Vous avez plus de 50 modèles à choisir. Ces modèles couvrent des domaines variés, des sites de commerce électronique tels qu'Amazon et eBay aux canaux de médias sociaux tels que Facebook, Twitter et Instagram. Octoparse fournit aussi des modèles personnalisés.

 

 

 

 

Méthod #1: Extraction en un clic avec le mode "Modèle de tâche"

Étape 1 : Choisissez un modèle de grattage Web

Pour utiliser les modèles, vous devez installer d'abord Octoparse sur votre ordinateur. Sélectionnez le mode "Modèle de tâche". Allez dans la catégorie "moteur de recherche" et trouvez le modèle de grattage Web de Google Search.

Étape 2 : Lisez les instructions du modèle

Ouvrez le modèle. Vérifiez les instructions et la sortie d'exemple pour vous assurer que ce modèle peut extraire les données dont vous avez besoin. Vous pouvez passer le curseur sur les champs de données pour voir quels éléments de site Web seront extraits. 

Vérifiez les paramètres pour mieux comprendre ce que vous devez entrer. Comme les modèles différents nécessitent des termes de recherche différents pour continuer le processus de grattage, leurs paramètres pourraient se différencier: une URL, un mot-clé, une liste d'URL/mots-clés, du nombre de pages que vous souhaitez récupérer, etc. Dans ce cas, nous saisirons le terme de recherche "smoothie".

Étape 3 : Utilisez le modèle et lancez l'extraction

Cliquez sur "utiliser le modèle", puis entrez "smoothie" et appuyez sur "enregistrer et exécuter". S'il s'agit d'un projet ponctuel, il vous suffit d'exécuter le crawler sur votre ordinateur local. Alors que, si vous voulez gérer un projet en cours, vous pouvez planifier l'extraction sur la plate-forme cloud Octoparse. Après l'accomplissement de l'extraction, vous pouvez exporter les données dans des formats divers, comme Excel, CSV et txt.

 

Nous venons de présenter comment utiliser un modèle de grattage Web pour extraire des données Web de Google Search. Vous pouvez aussi créer votre propre crawler en quelques clics avec le "Mode avancé". Bien qu'il peut nécessite quelques configurations, il est très flexible en termes d'extraction de données.

 

Méthod #2: Extraction personnalisée avec le Mode Avancé

 

Étape 1 : Saisissez l'URL cible pour créer un crawler

Si vous voulez extraire des données à grande échelle, vous pouvez entrer une liste d' URL dans la zone de recherche (10 000 URL en maximum). Dans ce cas, puisque nous ne voulons gratter qu'un seul site Web, collons simplement l'URL cible dans la zone et cliquez sur "enregistrer l'URL" pour continuer.

Étape 2 : Créer une boucle de pagination

Changez le navigateur à Firefox 45. Octoparse a maintenant chargé la page Web dans son navigateur intégré avec succès. Ensuite, cliquez sur le bouton de la page "Suivante" et choisissez "Cliquez en boucle sur la page suivante" dans le panneau Tips d'action pour créer une pagination. La boucle de pagination que vous venez de créer affichera immédiatement dans la zone de workflow.

Étape 3 : extraire les données et lancer l'extraction

Cliquez sur le titre d'un résultat de recherche, puis cliquez sur "tout sélectionner". Les titres sélectionnés seront surlignées en vert. Cliquez sur "Extraire le texte des éléments sélectionnés" pour extraire tous les titres. Arrêtez-vous un instant et vérifiez le workflow. Vous venez de construire une boucle d'extraction dans la boucle de pagination avec succès. L'ensemble du processus d'extraction sera le suivant : le robot ouvrira d'abord la page Web, extraira les titres de la première page un par un, puis entrera dans la page suivante pour répéter l'extraction jusqu'à ce que l'extraction s'arrête ou soit terminée.

Vous pouvez suivre les mêmes étapes pour extraire les descriptions. Enfin, pour extraire les URL, cliquez sur la balise "A" et choisissez "extraire l'URL du lien sélectionné". La description et l'URL apparaîtront dans le coin supérieur droit, ce qui signifie que vous les avez extraites avec succès. Vous pouvez maintenant modifier le nom du champ, enregistrer la tâche d'exploration et lancer l'extraction comme vous les ouhaitez.

 

En plus de Google, les outils d'extraction de données peuvent aussi extraire des données de nombreux autres sites Web et être largement utilisés dans divers secteurs. Par exemple, une entreprise peut extraire les pages jaunes, Yelp et Google Maps pour générer leurs prospects. Vous pouvez consulter d'autres utilisations et applications d'extraction de données.

 

Artículo en español: Extraer Datos del Website a Excel Automáticamente
También puede leer artículos de web scraping en El Website Oficial

 

Lectures conseillées:

9 Scrapers Web GRATUITS à ne pas manquer

Web Scraping 101: 10 mythes que tout le monde devrait connaître

25 Façons de Développer Vos Activités avec le Web Scraping

9 Défis de Web Scraping que Vous Devriez Connaître

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter