Scraper des données sur un moteur de recherche est une bonne façon pour collecter des informations liées à un sujet spécifique. Dans ce tutoriel, nous allons vous montrer comment extraire les données de résultats de recherche sur Google Search.

Vous pouvez aller directement dans les "Modèles de tâches" sur l'écran d'accueil d'Octoparse et commencer avec le modèle de Google Search prédéfini pour gagner du temps. Le modèle vous épargnera de configurer la tâches en vous-même. Pour plus de détails, vous pouvez consulter ici: Modèles de tâchesexternal-link-symbol-1.png

 mceclip0.png

 

Vous pouvez également utiliser notre mode avancé pour créer votre propre tâche. Pour suivre, vous pouvez utiliser l'URL dans ce tutoriel: https://www.google.com/

Nous allons récupérer des données telles que le titre, l'URL et la description de la page de résultats de recherche avec Octoparse.

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici ]

  1. Ouvrir la page Web cible
  2. Auto-détecter la page Web - créer l'action de saisie de texte
  3. Modifier les paramètres de l'action "Cliquer sur l'élément"
  4. Auto-détecter la page de résultats de recherche pour extraire les données
  5. Configurer un temps d'attente pour ralentir la vitesse de grattage
  6. Enregistrer et commencer à exécuter la tâche pour obtenir des données

 

 

1) Ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

1.png

 

2) Auto-détecter la page Web - créer l'action de saisie de texte

  • Cliquez sur "Auto-détecter les données de page Web" et attendez la termination du processus

auto_detect1.gif

  • Choisissez "Rechercher avec des mots clés" dans le panneau Tips et vous verrez des instructions pour vous aider à configurer les règles

3.png

a. "Ajouter une barre de recherche": cliquez sur "Paramètres" et sélectionnez la barre de recherche sur la page Web

add_search_box.gif

b. "Ajouter mot(s) clé(s)": cliquez surmceclip0.png et saisissez le(s) mot(s) clé(s). Un mot-clé par ligne.

 input_keywords.gif
 
c. Cliquez sur le bouton de recherche": cochez "Cliquez sur le bouton de recherche après avoir saisie le texte" et sélectionnez le bouton de recherche sur la page Web
 
click_search_button.gif
  • Cliquez sur "Confirmer" pour générer le workflow
 

 

3) Modifier les paramètres de l'action "Cliquer sur l'élément"

  • Double-cliquez sur "Cliquer sur l'élément" pour accéder au Panneau de Paramètres d'action
  • Cochez "Ouvrir dans un nouvel onglet"
  • Prolongez le délai d'attente AJAX

modify_Click_item.gif

 

4) Auto-détecter la page de résultats de recherche pour extraire les données

  • Auto-detectez à nouveau la page

 auto_detect2.gif

 

  • Cliquez sur "Créer un workflow"

4.png

  • Renommez les champs ou supprimez les champs indésirables

rename_fields.gif

 

 

 5) Configurer un temps d'attente pour ralentir la vitesse de grattage
Google search applique une technique anti-grattage et elle montrera un reCAPTCHA à résoudre si vous le scrapez trop vite. Nous devons donc ralentir le grattage en fixant un temps d'attente.
  • Double-cliquez sur l'action "Extraire les données"
  • Cochez "Attendre avant l'action"
  • Configurez le temps d'attente entre 1s-3s
set_up_wait_time.gif
 
 

6) Enregistrer et commencer à exécuter la tâche pour obtenir des données
 

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

5.png

 

Voici l'exemple de l'exportation.

mceclip1.png

 

Tutorial en español:  Scrapear datos de Google Search

También puedes leer más artículos de web scraping en el sitio web oficial

 

Cet article est-il utile? N'hésitez pas à nous contacter  si vous avez besoin de notre aide!

Auteur: Yina