Scraper les informations d'entreprises sur Crunchbase
Tuesday, May 18, 2021 3:21 PM
Crunchbase est un site Web pour trouver des informations commerciales de différentes entreprises. On peut y trouver les informations sur les investissements et le financement, les membres fondateurs, les dirigeants, les fusions et acquisitions, les actualités, les tendances industrielles, etc.
Dans ce tutoriel, nous vous montrerons comment extraire les informations d'entreprises sur Crunchbase avec URL de page de résultats de recherche.
Pour scraper Crunchbase, vous pouvez utiliser notre "Modèle de tâche" pré-construit dans la page d'accueil d'Octoparse. Il vous suffit d'entrer quelques paramètres. Pour plus de détails, veuillez consulter ici : Modèles de tâches.
Crunchbase n'affiche que 5 résultats par recherche pour les utilisateurs gratuits. Veuillez donc vous assurer que vous disposez d'un compte professionnel de Crunchbase avant de commencer la configuration de tâche.
Nous allons extraire l'URL de la page de détail de chaque entreprise dans la tâche 1 et extraire des données telles que le nom, l'emplacement, l'introduction et les informations de financement de l'entreprise dans la page de détails dans la tâche 2.
Pour continuer, vous pourriez vous procurer en avant URL d'une page de résultats de recherche ou utiliser directement l'URL dans ce tutoriel: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e
Voici les principales étapes de ce tutoriel :
Tâche 1 : Extraire toutes les URLs des pages de détails à partir des pages de résultats de recherche [Télécharger le fichier de tâche ici]
- Aller à la page Web - ouvrir la page Web cible
- Se connecter au site Web et enregistrer les cookies
- Auto-détecter la page Web - créer un flux de travail
- Sélectionner le lien de l'entreprise à scraper
- Créer une boucle de pagination - scraper plusieurs pages de liste
- Démarrer l'extraction - exécuter la tâche et obtenir des données
Tâche 2 : Collecter les informations des entreprises à partir d'URLs récupérées [Télécharger le fichier de tâche ici]
- Entrer les URLs récupérées - ouvrir en boucle les pages de détails
- Extraire les données - sélectionner les données à extraire
- Modifier XPath de champs de données
- Démarrer l'extraction - exécuter la tâche et obtenir des données
Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche
1. Aller à la page Web - ouvrir la page Web cible
- Entrez URL sur la page d'accueil et cliquez sur "Start"
2. Se connecter au site Web et enregistrer les cookies
- Cliquez pour passer en mode Parcourir, et puis connectez-vous au site Web comme vous le faites sur un navigateur ordinaire
- Cliquez sur "Go to page Web" dans le workflow
- Cochez "Use le cookie" et puis, cliquez sur "Use cookie from the current page" dans le panneau de settings en bas.
- Cliquez sur "OK" pour l'enregistrer
3. Auto-détecter la page Web - créer un flux de travail
- Fermez le Browser mode
- Cliquez sur "Auto-detect web page data" et attendez que le robot lance la détection.
- Supprimer les champs indésirés dans le panneau de "Data preview"
- Choisissez "Create workflow" dans le panneau Tips
Octoparse générera automatiquement une boucle dans le flux de travail :
4. Sélectionner le lien de l'entreprise
- Sélectionnez la première entreprise sur la page Web (la première ligne sera surlignée en rouge)
- Cliquez sur l'onglet «A» dans le panneau Tips
- Choisissez "Extract the URL of the selected link"
- Sélectionnez d'autres informations de la première entreprise
- Renommez les champs si nécessaire
5. Créer une pagination - scraper plusieurs pages de liste
- Sélectionnez le bouton Next sur la page Web
- Choisissez "Loop click single element"
- Configurez un délai d'attente AJAX approprié
6. Lancer l'extraction - exécuter la tâche et obtenir des données
- Cliquez sur "Start extraction" dans le côté supérieur gauche
- Sélectionnez "Local xtraction" pour exécuter la tâche sur votre ordinateur
Après avoir gratté les données, vous pouvez les exporter dans un fichier Excel.
Tâche 2 : Récupérer les informations de produits à partir d'URLs
1. Entrer les URLs extraites - ouvrir en boucle les pages de détails
- Cliquez sur "+ Nouveau" et sélectionnez "Mode avancé"
2. Extraire les données - sélectionner les données à extraire
- Sélectionnez le nom d'entreprises sur la page Web
- Choisissez "Extract text of the selected element"
- Répétez les étapes précedentes pour gratter d'autres informations
- Renommer les champs si nécessaire
3. Modifier le XPath de champs de données
Pour les informations de financement, l'emplcement varie sur diverses pages d'entreprises.
Par exemple, la page de la société Apple contient des champs tels que "Nombre d'acquisitions" et "Symbole boursier". Alors que la page de la société Shine n'en a pas. Même les champs comme "Total Funding Amount" ne se trouvent pas dans le même endroit de la page.
Nous devons donc modifier XPath de ces champs pour les localiser correctement sur différentes pages. Prenons le champ "Total Funding Amount" comme exemple. Étant donné que le titre du champ ne changera pas, nous pouvons localiser la valeur du champ via son titre.
Le XPath pour le "Total Funding Amount" est :
//span[contains(text(),'Total Funding')]/../../following-sibling::*[1]
- Ouvrez les paramètres de l'action "Extract Data"
- Cliquez sur "Customize XPath" du champ
- Entrez XPath modifié
- Cliquez sur "OK" pour l'enregistrer
Vous pouvez changer les XPath d'autres champs de la même manière.
4. Lancer l'extraction - exécuter la tâche et obtenir des données
- Cliquez sur "Start Extraction" dans le côté supérieur gauche
- Sélectionnez "Local Extraction" pour exécuter la tâche sur votre appareil, ou sélectionnez "Run il the Cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)
Voici l'exemple des données extraites
Auteur : Yina
Cet article est-il utile ? N'hésitez pas à nous contacter si vous avez besoin de notre aide!
Les articles récemment consultés
- Scraper les informations de liste sur Bing
- Scraper les informations commerciales de Google Maps
- Scraper les informations de tendances vidéos sur YouTube
- Scraper les informations d'hôtels de Trip.com
- Scraper les résultats de recherche de Google Scholar