undefined

Scraper les informations d'entreprises sur Crunchbase

Tuesday, May 18, 2021 3:21 PM

 

Crunchbase est un site Web pour trouver des informations commerciales de différentes entreprises. On peut y trouver les  informations sur les investissements et le financement, les membres fondateurs, les dirigeants, les fusions et acquisitions, les actualités, les tendances industrielles, etc.

Dans ce tutoriel, nous vous montrerons comment extraire les informations d'entreprises sur Crunchbase avec URL de page de résultats de recherche.

Pour scraper Crunchbase, vous pouvez utiliser notre "Modèle de tâche" prédéfini sur l'écran principal d'Octoparse.Vous n'avez qu'à saisir quelques paramètres et la tâche sera prête. Pour plus de détails, veuillez consulter ici: Modèles de tâchesexternal-link-symbol-1.png

1.1.png

 

Crunchbase n'affiche que 5 résultats par recherche pour les utilisateurs gratuits. Veuillez donc assurer que vous disposez d'un compte professionnel de Crunchbase avant de commencer la configuration de tâche.

Nous allons extraire l'URL de la page de détail de chaque entreprise dans la tâche 1 et extraire des données telles que le nom, l'emplacement, l'introduction et les informations de financement de l'entreprise dans la page de détails dans la tâche 2.

Pour continuer, vous pourriez vous procurer en avant URL d'une page de résultats de recherche ou utiliser directement l'URL dans ce tutoriel: https://www.crunchbase.com/discover/organization.companies/9472f4f3410c0010e2780a286ce97f9e

 

Voici les principales étapes de ce tutoriel:

Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche [Télécharger le fichier de tâche ici]

  1. Aller à la page Web - ouvrir la page Web cible
  2. Se connecter au site Web et enregistrer les cookies
  3. Auto-détecter la page Web - créer un flux de travail 
  4. Sélectionner le lien de l'entreprise à scraper
  5. Créer une boucle de pagination - scraper plusieurs pages de liste
  6. Démarrer l'extraction - exécuter la tâche et obtenir des données

 

Tâche 2: Collecter les informations de produits à partir d'URLs récupérées [Télécharger le fichier de tâche ici]

  1. Entrer les URLs récupérées - ouvrir en boucle les pages de détails
  2. Extraire les données - sélectionner les données à extraire
  3. Modifier XPath de champs de données
  4. Démarrer l'extraction - exécuter la tâche et obtenir des données

Tâche 1: Extraire toutes les URLs des pages de détails sur les pages de résultats de recherche

 

1. Aller à la page Web - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

1.png

 

2. Se connecter au site Web et enregistrer les cookies

  1. Cliquez sur mceclip0.png pour passer en mode Parcourir
  2. Connectez-vous au site Web comme vous le faites sur un navigateur ordinaire

2.gif

  • Ouvrez les paramètres de l'action "Aller à la page Web"
  • Cochez "Utiliser le cookie" et cliquez sur "Utiliser le cookie de la page actuelle"
  • Cliquez sur "OK" pour l'enregistrer

2.1gif.gif

 

3. Auto-détecter la page Web - créer un flux de travail 

  • Fermez le "Mode navigateur"
  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

3.gif

  • Supprimer les champs indésirables dans l'aperçu des données

3.2.png

  • Choisissez "Créer un flux de travail" dans le panneau Tips

3.1.png

Octoparse générera automatiquement un élément de boucle dans le flux de travail:

mceclip1.png

 

4. Sélectionner le lien de l'entreprise à scraper 

  • Sélectionnez le nom de la première​  sur la page Web (la première ligne sera surlignée en rouge)
  • CCliquez sur l'onglet «A» dans le panneau Tips
  • Choisissez "Extraire l'URL du lien sélectionné"

4.gif

  • Sélectionnez d'autres informations de la première entreprise pour gratter le texte
  • Renommez les champs si nécessaire

4.1.gif

 

5. Créer une boucle de pagination - scraper plusieurs pages de liste

  • Sélectionnez le bouton Suivant sur la page Web
  • Choisissez "Cliquer en boucle chaque élément"
  • Sélectionnez un délai d'attente AJAX approprié

5.gif

 

6. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Extraction locale" pour exécuter la tâche sur votre ordinateur

6.png

Après avoir gratté les données, vous pouvez les exporter dans un fichier Excel.

 

 

Tâche 2: Collectez les informations de produits à partir d'URLs récupérées

 

1. Entrer les URLs récupérées - ouvrir en boucle les pages de détails

  • Cliquez sur "+ Nouveau" et sélectionnez "Mode avancé"

6.gif

 

2. Extraire les données - sélectionner les données à extraire

  • Sélectionnez le nom d'entreprises sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes précedentes pour gratter d'autres informations de base d'entreprises

7.gif

  • Renommer les champs si nécessaire

8.gif

 

3. Modifier XPath de champs de données

Pour les informations de financement, les champs de données varient en fonction de pages d'entreprises. Par exemple, la page de la société Apple contient des champs tels que "Nombre d'acquisitions" et "Symbole boursier". Alors que la page de la société Shine n'en a pas. Même les champs pareils comme "Montant total du financement" ne se trouvent pas dans le même endroit du page.

7.1.png

Nous devons donc modifier XPath de ces champs pour les localiser correctement sur différentes pages. Prenons le champ "Montant total du financement" comme exemple. Étant donné que le titre du champ ne changera pas, nous pouvons localiser la valeur du champ via son titre. Le XPath pour le "Montant total du financement" est: //span[contains(text(),'Total Funding')]/../../following-sibling::*[1]

  • Ouvrez les paramètres de l'action "Extraire les données"
  • Cliquez sur "Personnaliser XPath" du champ
  • Entrez XPath modifié
  • Cliquez sur "OK" pour l'enregistrer

9.1.gif

Les XPath d'autres champs peuvent être modifiés de la même manière.

 

4. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

 10.png

Voici l'exemple de l'exportation:

mceclip3.png

 

Auteur: Yina

 

 

Cet article est-il utile? N'hésitez pas à nous contacter si vous avez besoin de notre aide!

 

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter