Toutes les collections
Octoparse 101
Leçon 2 : Optimiser votre tâche
Leçon 2 : Optimiser votre tâche
Mis à jour il y a plus d’une semaine

La détection automatique est bien. Cependant, aucun algorithme n'est parfait. Il arrive que les données dont vous avez besoin ne sont pas détectées avec précision.

Dans cet article, nous allons passer en revue quelques méthodes que vous pouvez utiliser pour optimiser votre tâche.


1. Si les données dont vous avez besoin ne sont pas détectées

Octoparse détecte les données sur n'importe quelle page Web. Il analyse la page entière et récupère un ou plusieurs ensembles de données à l'aide de son algorithme d'apprentissage automatique. Si vos données cibles ne sont pas bien détectées lors de la première tentative, vous pouvez passer au deuxième ensemble de données en cliquant sur « Changer les résultats de l'autodétection ». Cette fraction signifie que Octoparse a détecté 5 ensembles de données et que vous regardez maintenant le premier ensemble de données.


2. Si la pagination auto-détectée n'est pas correcte

Si la détection automatique ne parvient pas à configurer correctement la pagination, vous pouvez facilement le réparer en cliquant sur "Editer", puis suivre les instructions sur le panneau de conseils pour sélectionner à nouveau le bouton de Page suivante.

A Noter :

Si le bouton de "Page suivante" ou "Charger plus" n'est pas détecté, veuillez consulter les tutoriels suivants pour ajouter l'étape de pagination manuellement :


3. Si vous avez besoin de faire défiler davantage la page pour charger plus de données

Lorsqu'une page web est détectée avec un défilement infinitif, Octoparse spécifie automatiquement le nombre de fois qu'il faut faire défiler la page. Si vous préférez faire défiler plus de pages avant de capturer les données, vous pouvez facilement ajuster le nombre de défilements en cliquant sur Editer pour accomplir les paramètres.

Ici, les Répétitions signifie combien de fois Octoparse doit faire défiler cette page.


4. Si vous devriez cliquer sur les liens de la page pour obtenir plus de données de détail

Dans de nombreux cas, vous devrez cliquer sur chaque lien de produit pour accéder à la page de détail du produit qui vous donne des informations plus spécifiques, comme la description du produit. Octoparse offre une option facile pour vous sur les Conseils.

Après avoir cliqué sur Créer un flux de travail, choisissez Sélectionner l'URL de la sous-page et choisissez le champ de données sur lequel cliquer.

Vous pouvez également choisir Sélectionner un élément d'ancrage sur la page web et sélectionner le lien directement sur la page web.


5. Travailler directement avec le flux de travail

Quand vous construisez une tâche de scraping dans Octoparse, elle simule de réelles actions de navigation humaine, telles que l'ouverture d'une page Web et le clic sur un élément / bouton de page pour récupérer automatiquement les données. L'ensemble du processus d'extraction est défini automatiquement dans un flux de travail, chaque étape / action individuelle représentant une instruction particulière dans la tâche de scraping.

Quoique Octoparse essaie de faciliter les choses en générant automatiquement le flux de travail par la détection automatique, vous pouvez créer le flux de travail à partir de zéro ou modifier le flux de travail généré automatiquement pour vous assurer que la tâche peut faire ce dont vous avez besoin.

Il y a de nombreux types d'actions que vous pouvez ajouter au flux de travail. Chaque étape / action a divers paramètres que vous pouvez modifier pour affiner votre tâche de scraping.

  • Réorganiser les étapes du flux de travail en les faisant glisser et en les déposant au bon endroit.

  • Cliquer les étapes pour en vérifier et modifier les paramètres.

  • Pour ajouter une étape supplémentaire au flux de travail, placez votre souris à l'endroit où vous souhaitez insérer l'étape. Cliquez dessus et sélectionnez l'action que vous souhaitez ajouter.

loop item
  • Pour ajouter une étape supplémentaire au flux de travail, placez votre souris à l'endroit où vous souhaitez insérer l'étape. Attendez que le signe + apparaisse, cliquez dessus et sélectionnez l'action que vous souhaitez ajouter.

  • Renommer, copier ou supprimer une étape en cliquant chaque étape du flux de travail.


Avez-vous trouvé la réponse à votre question ?