Leçon 2: Optimiser votre tâche
Tuesday, May 11, 2021 6:52 PMLa détection automatique des données est cool, cependant aucun algorithme n'est parfait, il y aura des occasions où les données dont vous avez besoin ne sont pas détectées avec précision. Dans cette leçon, nous allons passer en revue quelques solutions simples que vous pouvez appliquer pour optimiser votre tâche de scraping.
1. Si les données dont vous avez besoin ne sont pas détectées
Quand l'Octoparse détecte les données sur n'importe quelle page Web, il analyse la page entière et récupère un ou plusieurs ensembles de données à l'aide de son algorithme d'apprentissage automatique. Si vous ne voyez pas vos données cibles détectées lors de la première tentative, vous pouvez passer au deuxième ensemble de données en cliquant sur «Changer les résultats de la détection automatique». La fraction ici signifie qu'Octoparse a détecté 3 ensembles de données et que vous regardez le premier.
2. Si le bouton Page suivant détecté automatiquement n'est pas correct
Si la détection automatique ne parvient pas à localiser correctement le bouton Suivant, vous pouvez facilement le réparer en cliquant sur "Modifier", puis suivez les instructions sur "Tips" pour sélectionner à nouveau le bon bouton Page suivant.
3. Si vous avez besoin de faire défiler plus de pages pour charger plus de données.
4. Travailler directement avec le flux de travail
Quand vous faites une tâche de scraping dans L'Octoparse, elle simule de réelles actions de navigation humaine, telles que l'ouverture d'une page Web et le clic sur un élément / bouton de page pour récupérer automatiquement les données. L'ensemble du processus d'extraction est défini automatiquement dans un flux de travail, chaque étape / action individuelle représentant une instruction particulière dans la tâche de scraping.
Quoique L'Octoparse essaie de faciliter les choses en générant automatiquement le flux de travail par la détection automatique, vous pouvez créer le flux de travail à partir de zéro ou modifier le flux de travail généré automatiquement pour vous assurer que la tâche peut faire ce dont vous avez besoin.
Il y a de nombreux types d'actions que vous pouvez ajouter au flux de travail. Chaque étape / action a divers paramètres que vous pouvez modifier pour affiner votre tâche de scraping.
- 1. Réorganiser les étapes du flux de travail en les faisant glisser et en les déposant au bon endroit.
- 2. Placer votre souris et vérifier les paramètres de l'étape spécifique.
- 3. Pour ajouter une étape supplémentaire au flux de travail, placez votre souris à l'endroit où vous souhaitez insérer l'étape. Cliquez dessus et sélectionnez l'action que vous souhaitez ajouter.
- 4. Renommer, copier ou supprimer une étape en cliquant sur le bouton plus affiché.