undefined

Mode Avancé - Auto-détecter les pages Web

Monday, June 07, 2021 6:54 PM

Vous vous sentez longtemps piégé dans la conception de flux de travail par vous-même? Vous n'arrivez toujours pas à récupérer les données par vous-même ? Octoparse a offert une nouvelle solution pour les débutants : l'auto-détection de la page Web.

La fonctionnalité Auto-détection est l'une des dernières innovations de la version 8 d'Octoparse. Avec cette fonctionnalité, les utilisateurs peuvent commencer facilement leur travail en cliquant simplement sur un seul bouton. Elle peut vous aider à gérer des pages Web avec des conceptions différentes, telles que les listes, les tableaux, le défilements infini, le bouton de charger plus , etc. Maintenant, il est temps de présenter cette fonctionnalité hyper utile et puissante à vous, nos chers utilisateurs.

 

Comment utiliser cette fonctionnalité?

1. Entrer l'URL sur la page d'accueil

Saisissez l'URL d'exemple "https://www.ebay.com/b/Laptops-Netbooks/175672/bn_1648276" dans la barre de recherche au centre de la page d'accueil. Cliquez sur "Démarrer" pour créer une nouvelle tâche avec le Mode Avancé.

mceclip0.png

 

2. Démarrer l'auto-détection

La détection commencera dès que vous aurez cliqué sur le bouton "Auto-détecter les données de la page Web" et vous n'aurez qu'à attendre que ce processus se termine.

yyyyy1111.gif

 

3. Modifier les paramètres

  • Enlever les données indésirées

Cliquez sur l'icône mceclip0.png  dans l' "Aperçu des données" pour supprimer les champs de données indésirées.

yyyyy1111111.gif

  • Renommer vos données

Renommez les champs de données en cliquant sur l'icône mceclip1.png

_____.gif

  • Confirmer les paramètres sur "Tips"

Des options telles que "extraire la liste", "paginer", "défilement de la page" seront affichées dans le panneau "Tips",

  1. Extraire les données dans la liste - Cette option est sélectionnée par défaut pour vous aider à gratter la liste de données sur la page.
  2. Paginer pour gratter plus de pages - Le bouton "Page suivante" sera localisé automatiquement pour vous aider à obtenir des données à partir de plusieurs pages Web.
  3. Ajouter un défilement de page- Cette option vous permettra de faire défiler la page vers le bas après le chargement de contenu.

1.png

 

Vous pouvez vérifier/modifier/désélectionner les paramètres comme vous le souhaitez.

a) Vérifier les paramètres

Cliquez sur le bouton "Vérifier" sous l'option "Paginer pour gratter plus de pages" et le bouton de pagination sera surligné en vert.

2.gif

 

b) Modifier les paramètres

Cliquez sur le bouton "Modifier" sous l'option dont vous voulez modifier les paramètres.

3.png

 

c) Décocher les paramètres

Si vous n'avez plus besoin d'une action, décochez simplement la case en face de celle-ci mceclip3.png

4.png

  • Cliquer sur le bouton "Créer un flux de travail"

Après avoir confirmé toutes les options, vous pouvez choisir ensuite "Créer un workflow" pour générer les actions

5.png

4. Plus d'actions de grattage

L'auto-détection peut vous aider à configurer un workflow de base avec la pagination et l'extraction des données. Si vous souhaitez cliquer sur chaque lien pour obtenir plus d'informations ou cliquer continuellement sur le bouton "Charger plus", vous pouvez sélectionner les actions dans le panneau "Tips" pour les configurer.

7.png

  1. Cliquer sur le bouton "Charger Plus"S'il y a le bouton de "Charger plus" sur la page Web, vous pouvez choisir cette action, sélectionner le bouton "Charger plus" sur la page et définir le nombre de clics pour que le scraper puisse cliquer automatiquement sur le bouton et charger plus de données pour le grattage.

mceclip1.png

  1. Cliquer sur le(s) lien(s) pour gratter les pages correspondantes- Si vous souhaitez cliquer sur les liens détectés et extraire plus d'informations de pages de détails, choisissez cette option et sélectionnez un lien sur lequel vous souhaitez cliquer.
  2. 8.png

Tips:

Pour vérifier si les liens sont exactement ceux sur lesquels vous souhaitez cliquer, cliquez sur "Vérifier", et les liens seront mis en évidence sur la page.

 

5. Ajouter manuellement les données manquantes

Parfois, le détecteur automatique pourrait omettre certains champs de données. Dans ce cas-là, vous devriez les ajouter manuellement. Sélectionnez simplement les informations sur la page Web et choisissez "Extraire le texte de l'élément"

6.gif

 

 

6. Enregistrer les paramètres et démarrer l'extraction

Cliquez d'abord sur le bouton "Enregistrer" pour enregistrer tous les paramètres que vous avez définis, puis cliquez sur "Exécuter" pour exécuter votre tâche localement ou dans le cloud.

mceclip3.png

 

 

Auteur: Lesley 

Editeur: Yina

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter