undefined

Scraper les données de la page de résultat et de la page détaillée du produit

Thursday, April 07, 2022 9:23 AM

Lorsque nous extrayons des informations sur les produits à partir de sites e-commerce , nous nous attendons souvent à extraire des données non seulement de la page de résultats de recherche, mais aussi de la page détaillée de chaque produit. Dans ce tutoriel, nous allons vous apprendre à construire un crawler personnalisé pour atteindre cet objectif.

Supposons que nous ayons besoin de rechercher "camera lens" sur eBay. Voir l'exemple d'URL ci-dessous :

https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=camera+lens&_sacat=0&LH_TitleDesc=0&_odkw=camera+lens&_osacat=0

 

Dans ce cas, nous voulons d'abord extraire le titre de caméra dans la page des listes, puis aller à sa page détaillée pour obtenir plus d'informations. Nous avons deux méthodes pour répondre à ce besoin.

1) Utiliser la fonctionnalité auto-détection pour créer le flux de travail

2) Créer manuellement le flux de travail

 

1. Utilisez la page Web auto-détection pour créer le flux de travail

La fonction de détection intelligente d'Octoparse 8.X est plus puissante que jamais. Nous pouvons l'utiliser pour détecter la page web afin de nous faire gagner du temps.

  • Cliquez sur Auto-détection des données de la page Web dans la boîte de conseils et attendez qu'elle se termine.
  • Passez d'un résultat de détection automatique à l'autre pour trouver les champs de données souhaités (résultat 1 dans ce cas).

  • Modifiez les paramètres des champs de données en les renommant et en supprimant ceux que vous ne voulez pas dans la section Aperçu des données.

 

 

Lorsque nous recherchons des lignes de produits populaires comme celle que nous utilisons pour la démonstration, il y a de fortes chances que nous devions naviguer dans plusieurs pages de résultats de recherche et extraire des données de chacune d'entre elles.

  • Cliquez sur le bouton Vérifier pour voir si Octoparse a réussi à localiser un bouton de page suiva
  • Décochez la case Ajouter un défilement de page et cliquez sur Créer un workflow

 

Octoparse a maintenant créé un élément de boucle dans le flux de travail qui peut aider à extraire des données de la page de résultats de recherche. Nous allons continuer à construire les étapes pour aller aux pages de détails.

  • Sélectionnez Cliquez sur le(s) lien(s) pour scraper la(les) page(s) liée(s).
  • Choisissez un champ avec les URLs que vous voulez cliquer.

Maintenant, Octoparse nous a amené à la page détaillée pour une extraction de données supplémentaire. Nous pouvons prendre les informations que nous voulons dans cette page.

  • Cliquez sur l'élément web que vous voulez extraire
  • Cliquez sur Extraire le texte de l'élément dans le panneau Conseils
  • Modifier les noms des champs de données dans la section Aperçu des Données

 

 

 

2. Créer manuellement le flux de travail

Si la fonction de détection automatique échoue pour certains sites Web, nous pouvons également configurer le flux de travail manuellement. Voir les étapes ci-dessous :

  • Sélectionnez le premier élément de la page de la liste
  • Cliquez sur Sélectionner tout dans le panneau Conseils
  • Cliquez sur Extraire le texte des éléments sélectionnés

Une liste de boucle a maintenant été ajouté au flux de travail mais seul le titre du produit a été extrait. Nous pouvons ajouter d'autres champs.

  • Sélectionnez les informations que vous souhaitez extraire de la page de résultats
  • Choisissez Extraire les éléments de text

 

Nous devons ensuite créer une action permettant de cliquer sur l'URL du titre du produit.

  • Sélectionnez le premier titre de la page de liste
  • Cliquer "Cliquer sur les éléments"

 

Une fois que nous avons accédé à la page de détails, nous pouvons extraire les informations des éléments spécifiques.

  • Cliquez sur l'élément web que vous voulez extraire
  • Cliquez sur Extraire le texte de l'élément dans le panneau Conseils
  • Modifiez les noms des champs de données dans la section Aperçu des données

 

Si vous rencontrez d'autres problèmes avec cette tâche ou si vous avez une suggestion qui permettrait d'améliorer cette ressource pour vous, nous serions ravis de l'entendre.  Soumettez une demande ici.

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter