Crunchbase est un site Web pour trouver des informations commerciales de différentes entreprises. On peut y trouver les informations sur les investissements et le financement, les membres fondateurs, les dirigeants, les fusions et acquisitions, les actualités, les tendances industrielles, etc.
Dans ce tutoriel, nous vous montrerons comment extraire les informations d'entreprises sur Crunchbase avec URL de page de résultats de recherche.
Pour scraper Crunchbase, vous pouvez utiliser notre "Modèle de tâche" pré-construit dans la page d'accueil d'Octoparse. Il vous suffit d'entrer quelques paramètres. Pour plus de détails, veuillez consulter ici : Modèles de tâches.
Crunchbase n'affiche que 5 résultats par recherche pour les utilisateurs gratuits. Veuillez donc vous assurer que vous disposez d'un compte professionnel de Crunchbase avant de commencer la configuration de tâche.
Nous allons extraire l'URL de la page de détail de chaque entreprise dans la tâche 1 et extraire des données telles que le nom, l'emplacement, l'introduction et les informations de financement de l'entreprise dans la page de détails dans la tâche 2.
Pour continuer, vous pourriez vous procurer en avant URL d'une page de résultats de recherche ou utiliser directement l'URL dans ce tutoriel: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e
Voici les principales étapes de ce tutoriel :
Tâche 1 : Extraire toutes les URLs des pages de détails à partir des pages de résultats de recherche
Tâche 2 : Collecter les informations des entreprises à partir d'URLs récupérées
Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche
1. Aller à la page Web - ouvrir la page Web cible
Entrez URL sur la page d'accueil et cliquez sur "Start"
2. Se connecter au site Web et enregistrer les cookies
Cliquez pour passer en mode Parcourir, et puis connectez-vous au site Web comme vous le faites sur un navigateur ordinaire
Cliquez sur "Go to page Web" dans le workflow
Cochez "Use le cookie" et puis, cliquez sur "Use cookie from the current page" dans le panneau de settings en bas.
Cliquez sur "OK" pour l'enregistrer
3. Auto-détecter la page Web - créer un flux de travail
Fermez le Browser mode
Cliquez sur "Auto-detect web page data" et attendez que le robot lance la détection.
Supprimer les champs indésirés dans le panneau de "Data preview"
Choisissez "Create workflow" dans le panneau Tips
Octoparse générera automatiquement une boucle dans le flux de travail :
4. Sélectionner le lien de l'entreprise
Sélectionnez la première entreprise sur la page Web (la première ligne sera surlignée en rouge)
Cliquez sur l'onglet «A» dans le panneau Tips
Choisissez "Extract the URL of the selected link"
Sélectionnez d'autres informations de la première entreprise
Renommez les champs si nécessaire
5. Créer une pagination - scraper plusieurs pages de liste
Sélectionnez le bouton Next sur la page Web
Choisissez "Loop click single element"
Configurez un délai d'attente AJAX approprié
6. Lancer l'extraction - exécuter la tâche et obtenir des données
Cliquez sur "Start extraction" dans le côté supérieur gauche
Sélectionnez "Local xtraction" pour exécuter la tâche sur votre ordinateur
Après avoir gratté les données, vous pouvez les exporter dans un fichier Excel.
Tâche 2 : Récupérer les informations de produits à partir d'URLs
1. Entrer les URLs extraites - ouvrir en boucle les pages de détails
Cliquez sur "+ Nouveau" et sélectionnez "Mode avancé"
2. Extraire les données - sélectionner les données à extraire
Sélectionnez le nom d'entreprises sur la page Web
Choisissez "Extract text of the selected element"
Répétez les étapes précedentes pour gratter d'autres informations
Renommer les champs si nécessaire
3. Modifier le XPath de champs de données
Pour les informations de financement, l'emplcement varie sur diverses pages d'entreprises.
Par exemple, la page de la société Apple contient des champs tels que "Nombre d'acquisitions" et "Symbole boursier". Alors que la page de la société Shine n'en a pas. Même les champs comme "Total Funding Amount" ne se trouvent pas dans le même endroit de la page.
Nous devons donc modifier XPath de ces champs pour les localiser correctement sur différentes pages. Prenons le champ "Total Funding Amount" comme exemple. Étant donné que le titre du champ ne changera pas, nous pouvons localiser la valeur du champ via son titre.
Le XPath pour le "Total Funding Amount" est :
//span[contains(text(),'Total Funding')]/../../following-sibling::*[1]
Ouvrez les paramètres de l'action "Extract Data"
Cliquez sur "Customize XPath" du champ
Entrez XPath modifié
Cliquez sur "OK" pour l'enregistrer
Vous pouvez changer les XPath d'autres champs de la même manière.
4. Lancer l'extraction - exécuter la tâche et obtenir des données
Cliquez sur "Start Extraction" dans le côté supérieur gauche
Sélectionnez "Local Extraction" pour exécuter la tâche sur votre appareil, ou sélectionnez "Run il the Cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)
Voici l'exemple des données extraites