Lorsque nous extrayons des informations sur les produits à partir de sites e-commerce, nous voulons dans la plupart de cas extraire des données non seulement de la page de résultats de recherche, mais aussi de la page détaillée de chaque produit.

Dans ce tutoriel, nous allons vous apprendre à construire un crawler personnalisé pour atteindre cet objectif.

Supposons que nous ayons besoin de rechercher "camera lens" sur eBay. Voir l'exemple d'URL ci-dessous :

https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2334524.m570.l1313&_nkw=camera+lens&_sacat=0&LH_TitleDesc=0&_odkw=camera+lens&_osacat=0

Dans ce cas, nous voulons d'abord extraire le titre de caméra dans la page des listes, puis aller à sa page de détail pour obtenir plus d'informations. Nous avons deux méthodes pour répondre à ce besoin.

1. Utilisez l'auto-détection pour créer le flux de travail

La fonction de détection automatique intelligente d'Octoparse 8.X est plus puissante que jamais.

Cliquez sur Auto-détection des données de la page Web dans la boîte de conseils et attendez qu'elle se termine.

Passez d'un résultat de détection automatique à l'autre pour trouver les champs de données souhaités (résultat 1 dans ce cas).

Gérer les champs de données s'il y en a besoin : renommer, supprimer ou ajouter dans le panneau Aperçu des données.

Cliquez sur le bouton Vérifier pour voir si Octoparse a réussi à localiser un bouton de page suivant.

Décochez la case Ajouter un défilement de page et cliquez sur Créer un flux de travail.

Octoparse a maintenant créé un élément de boucle dans le flux de travail qui permet d'extraire des données de la page de résultats de recherche. Nous allons continuer à construire les étapes pour aller aux pages de détails.

Sélectionnez Sélectionner l'URL de la sous-page.

Choisissez un champ avec les URLs que vous voulez cliquer et puis Confirmer.

Maintenant, Octoparse nous a amené à la page de détail pour une extraction de données supplémentaire. Nous pouvons prendre les informations que nous voulons dans cette page.

Cliquez sur les éléments que vous voulez extraire

Cliquez sur Texte, URL, Image URL ou bien d'autre dans le panneau Conseils

Modifier les noms des champs de données dans la section Aperçu des Données

2. Créer manuellement le flux de travail

Si la fonction de détection automatique échoue pour certains sites Web, nous pouvons également configurer le flux de travail manuellement. Voir les étapes ci-dessous :

Sélectionnez le premier élément de la page de la liste
Continuer à sélectionner le deuxième élément
Cliquer Texte

Une boucle a été ajoutée au flux de travail, mais il y a un seul champ. Nous pouvons ajouter d'autres champs.

Sélectionnez les informations que vous souhaitez extraire de la page de résultats.
Choisissez le texte

Nous devons ensuite créer une action permettant de cliquer sur l'URL du titre du produit.

Sélectionnez le premier titre de la page de liste

Cliquer Cliquer sur l'élément

Une fois que nous avons accédé à la page de détails, nous pouvons extraire les informations des éléments spécifiques.

Cliquez sur l'élément que vous voulez extraire

Cliquez sur Texte dans le panneau Conseils

Modifiez les noms des champs de données dans la section Aperçu des données