Dans ce tutoriel, nous vous montrerons comment scraper les détails commerciaux de Yell.

Pour continuer, vous auriez besoin d'utiliser URL dans ce tutoriel 

https://www.yell.com/ucs/UcsSearchAction.do?scrambleSeed=627415385&keywords=dentists&location=London

Nous allons scraper des données telles que le titre, l'adresse, le numéro de téléphone et le site Web de la page Web.

 

Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici ]

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Extraire les données - modifier les champs de données
  4. Démarrer l'extraction - exécuter la tâche et obtenir des données
 

 

1. "Aller à la page Web" - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"
  • Cliquez sur "Démarrer" pour créer une nouvelle tâche1.png
 

 

2. Auto-détecter la page Web - créer un flux de travail 

  • Cliquez sur "Auto-détecter les données de page Web" et 
  • Attendez la termination du processus

2.gif

  • Accédez à "l'Aperçu des données" pour vérifier si le format des données extraites corresponde à vos attentes.
    • Vous pouvez supprimer les champs de données inutiles en cliquant directement sur l'icône mceclip13.png
    • Vous pouvez aussi modifier les noms de champs de données en cliquant directement sur l'icône mceclip14.png

2.png

  • Cliquez sur "Créer un flux de travail" dans le panneau Tips

2.1.png

Octoparse générerait un workflow automatiquement avec les champs de données qu'il a détectés.

mceclip0.png

 

3. Extraire les données - modifier les champs de données

Certaines informations peuvent ne pas être détectées par la détection automatique et nous pouvons les sélectionner pour les scraper manuellement 

  • Sélectionnez le "Site Web" de la première entreprise sur la page Web (note pour sélectionner dans la zone surlignée en rouge)
  • Choisissez "Extraire l'URL du lien sélectionné"

3.1.png

  • Cliquez sur ouvrir les paramètres d'Extraction de Données et modifiez le XPath du champ en //a[contains(text(),'Website')]

3.2.gif

 

Il est délicat de scraper des numéros de téléphone car les numéros ne sont pas visibles sur la page Web mais sont stockés dans le code HTML. Nous pouvons scraper un champ et modifier le XPath du champ pour obtenir le numéro de téléphone.

  • Sélectionnez le bouton "Appeler" et extrayez le texte

3.2.png

  • Cliquez sur ouvrir les paramètres d'Extraction de Données et modifiez le XPath du champ en //span[@itemprop="telephone"]

3_1.gif

 

Tips!

 On ne peut pas scrapé l'adresse e-mail dans ce cas car la page Web n'inclut pas l'adresse e-mail dans son code source. Cliquer sur le bouton E-mail vous dirigera vers une page pour soumettre des informations.

  • Si nécessaire, renommez les champs 

3.3.gif

 

 

4. Démarrer l'extraction - exécuter la tâche et obtenir des données

  • Cliquez sur "Enregistrer"
  • Cliquez sur "Démarrer" dans le côté supérieur gauche
  • Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)

 4.png

Vous pouvez exporter les données de résultat sous les formats tels que EXCEL, CVS, JSON ou dans votre base de données.

Voici l'exemple de production

mceclip0.png

 

Tutorial en español: Scrapear los detalles comerciales de Yell

También puedes leer más artículos de web scraping en el sitio web oficial

 

 Auteur: Yina