undefined

Leçon 2: Optimiser votre tâche

Tuesday, May 11, 2021 6:52 PM

La détection automatique des données est cool, cependant aucun algorithme n'est parfait, il y aura des occasions où les données dont vous avez besoin ne sont pas détectées avec précision. Dans cette leçon, nous allons passer en revue quelques solutions simples que vous pouvez appliquer pour optimiser votre tâche de scraping.

 

1. Si les données dont vous avez besoin ne sont pas détectées

When Octoparse goes on to detect the data on any web page, it screens the whole page and fetches one or more sets of data using its machine learning algorithm. If you don't see your target data being detected on the first attempt, you can switch to the second set of data by clicking on "Switch auto-detect results". The fraction here means Octoparse has detected 3 sets of data and you are looking at the first one.Quand l'Octoparse détecte les données sur n'importe quelle page Web, il analyse la page entière et récupère un ou plusieurs ensembles de données à l'aide de son algorithme d'apprentissage automatique. Si vous ne voyez pas vos données cibles détectées lors de la première tentative, vous pouvez passer au deuxième ensemble de données en cliquant sur «Changer les résultats de la détection automatique». La fraction ici signifie qu'Octoparse a détecté 3 ensembles de données et que vous regardez le premier.

G.png

 

Tips!

  • Si les données détectées ne vous donne pas ce dont vous avez besoin, vous pouvez toujours récupérer les données manuellement en suivant les instructions ici.
  • Ce ne sont pas toutes les données accessibles directement. Dans de nombreux cas, vous devrez peut-être interagir avec la page Web cible d'une façons ou d'une autre pour accéder aux données dont vous avez besoin, comme la connexion, la recherche avec des mots-clés ou même cliquer sur un menu déroulant. Consultez ce tutoriel pour savoir comment gérer de tels cas.

 

2. Si le bouton Page suivant détecté automatiquement n'est pas correct

Si la détection automatique ne parvient pas à localiser correctement le bouton Suivant, vous pouvez facilement le réparer en cliquant sur "Modifier", puis suivez les instructions sur "Tips" pour sélectionner à nouveau le bon bouton Page suivant.
 

h.gif

 

Tips!

  • Si le bouton Suivant ou Charger plus n'est jamais détecté, consultez cet article pour savoir comment ajouter l'étape manuellement:

Gestion de la pagination (avec un bouton "Suivant")
 

Gestion de la pagination (avec le bouton "Charger plus")

3. Si vous avez besoin de faire défiler plus de pages pour charger plus de données.

N'importe quand une page Web est détectée avec un défilement infinitif, Octoparse spécifie automatiquement le nombre de fois où faire défiler la page. Si vous préférez faire défiler davantage avant de capturer les données, vous pouvez facilement ajuster le nombre de fois de défilement en cliquant sur «Modifier», puis terminer les réglages.

i.gif

 


 

4. Travailler directement avec le flux de travail

Quand vous faites une tâche de scraping dans L'Octoparse, elle simule de réelles actions de navigation humaine, telles que l'ouverture d'une page Web et le clic sur un élément / bouton de page pour récupérer automatiquement les données. L'ensemble du processus d'extraction est défini automatiquement dans un flux de travail, chaque étape / action individuelle représentant une instruction particulière dans la tâche de scraping.

Quoique L'Octoparse essaie de faciliter les choses en générant automatiquement le flux de travail par la détection automatique, vous pouvez créer le flux de travail à partir de zéro ou modifier le flux de travail généré automatiquement pour vous assurer que la tâche peut faire ce dont vous avez besoin.
 

Il y a de nombreux types d'actions que vous pouvez ajouter au flux de travail. Chaque étape / action a divers paramètres que vous pouvez modifier pour affiner votre tâche de scraping.
 

 

1. Réorganiser les étapes du flux de travail en les faisant glisser et en les déposant au bon endroit.
 

workflow.gif

 

2. Placer votre souris et vérifier les paramètres de l'étape spécifique.

setting.png

3. Modifier les paramètres d'action en cliquant sur l'icône de paramètre.
  

 setting2.png

4. Pour ajouter une étape supplémentaire au flux de travail, placez votre souris à l'endroit où vous souhaitez insérer l'étape. Attendez que le signe plus.png  montre, cliquez dessus et sélectionnez l'action que vous souhaitez ajouter.

 

addstep.gif

 

 

5. Renommer, copier ou supprimer une étape en cliquant sur le bouton plus affiché.
 

renamestep2.png

Tips!

Si vous souhaitez optimiser plus profonde de votre tâche de scraping, consultez plus de techniques de création de tâches ici.
 

                                                            

>> Leçon 3: Affiner vos données

 

 

Artículo en español: Lección 2: Optimiza tu tarea

También puede leer artículos de web scraping en el sitio web oficial

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter