undefined

Scraper les résultats de recherche de Google Scholar

Monday, May 17, 2021 2:31 PM

Dans ce tutoriel, nous vous montrerons comment scraper les résultats de recherche de Google Scholar.

De plus, le Modèle Google Scholar prédéfini a été inséré dans notre dernière version, vous pouvez le trouver ici: Modèles de Tâchesexternal-link-symbol-1.png. Il vous suffit de saisir le mot-clé pour extraire les données souhaitées en quelques minutes!

mceclip0.png

Si vous voulez créer la tâche à partir de zéro,vous pourrier utiliser URL de ce tutoriel:

https://scholar.google.com/ncr

Nous allons scraper des données tels que le titre, l'auteur, la description, et d'autres informations liées sur chaque page de résultats de recherche avec Octoparse.

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche iciexternal-link-symbol-1.png]

  1. Aller à la page Web - ouvrir la page Web cible
  2. Créer un "Elément Boucle" - entrer en boucle les mots clés de recherche
  3. Auto-détecter la page de résultats de recherche pour scraper des données
  4. Configurer le temps d'attente pour ralentir la vitesse de grattage
  5. Enregistrer et commencer à exécuter la tâche pour obtenir des données

 

 

1. Aller à la page Web - ouvrir la page Web cible

  • Entrez l'URL sur la page d'accueil et cliquez sur "Démarrer"

mceclip1.png

 

 

2. Créer un "Elément Boucle" - entrer en boucle les mots clés de recherche

Nous pouvons personnaliser notre "liste de textes" pour créer une action de recherche en boucle. Octoparse saisira automatiquement chaque mot-clé de la liste dans la zone de recherche, une ligne par fois.

  • Ajoutez un "élément boucle" dans le flux de travail par cliquer sur mceclip0.png

2.1.gif

  • Double-cliquez sur "Elément Boucle" pour accéder au panneau des paramètres
  • Accédez au mode boucle et sélectionnez "Liste de textes"
  • Cliquez sur mceclip1.png pour entrer la liste de mot-clés avec un mot-clé par ligne. Nous entrerons "data mining" et "big data" dans ce cas.
  • Cliquez sur "OK" pour confirmer

2.2.gif

  • Cliquez sur la barre de recherche sur la page Web
  • Sélectionnez "Entrer texte" sur le panneau de "Tips"
  • Cliquez sur "Confirmer"

2.3.gif

  • Faites glisser l'action "Entrer texte" dans "Élément Boucle"
  • Double-cliquez l'action "Entrer Texte" 
  • Sélectionner "Utilisez les textes dans la boucle pour les entrer dans la zone de texte"
  • Cliquez sur "OK"

2.4.gif

Tips!

Pour vérifier si les étapes sont correctement configurées, nous pouvons cliquer sur "Elément Boucle" puis sur "Entrer Texte" dans le workflow, et voir si le texte serait entré dans la page Web.

2.5.gif

 

  • Cliquez sur le bouton de recherche sur la page Web
  • Sélectionnez "Cliquer sur l'élément" dans le panneau "Tips" et vous remarquerez que l'action "Cliquer sur l'élément" est ajoutée dans le flux de travail.
  • Ouvrez les paramètres de l'option "Cliquez sur l'élément" et sélectionnez l'option "Ouvrir dans une nouvelle page"

2.6.gif

 

 

3. Auto-détecter la page de résultats de recherche pour scraper des données

  • Cliquez sur "Auto-detecter les données de page Web" et attendez la termination du processus

3.2.gif

  • Renommez ou supprimez les données dans l'Aperçu

3.2.png

  • Cliquez sur "Créer un workflow"

3.3.png

 

4. Configurer le temps d'attente pour ralentir la vitesse de grattage

Google Scholar applique une technique d'anti-grattage et il montrera reCAPTCHA pour vous identifier si vous le scrapez trop rapidement. Nous devrons donc ralentir notre grattage par rallongeer le temps d'attente.
  • Double-cliquez sur l'action "Extraire les données"
  • Cochez "Attendre avant l'action"
  • Configurez le temps d'attente entre 1s-3s
4.1.gif

 

5. Enregistrer et commencer à exécuter la tâche pour obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud"pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

6.png

Voici l'exemple de l'exportation.:

mceclip2.png

 

Tutorial en español: Scrapear resultados de búsqueda de Google Scholar

También puedes leer más artículos de web scraping en el sitio web oficial

 

Auteur: Vanny

Editeur: Yina

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter