undefined

Leçon 2: Optimiser votre tâche

Monday, October 18, 2021 10:05 AM

La détection automatique des données est cool, cependant aucun algorithme n'est parfait, il y aura des occasions où les données dont vous avez besoin ne sont pas détectées avec précision. Dans cette leçon, nous allons passer en revue quelques solutions simples que vous pouvez appliquer pour optimiser votre tâche de scraping.

 

1. Si les données dont vous avez besoin ne sont pas détectées

Quand l'Octoparse détecte les données sur n'importe quelle page Web, il analyse la page entière et récupère un ou plusieurs ensembles de données à l'aide de son algorithme d'apprentissage automatique. Si vous ne voyez pas vos données cibles détectées, vous pouvez passer au deuxième ensemble de données en cliquant sur «Switch auto-detect results». La fraction ici signifie qu'Octoparse a détecté 3 ensembles de données et que vous voyez le premier.

G.png

 

Tips!

  • Si les données détectées ne vous donne pas ce dont vous avez besoin, vous pouvez toujours récupérer les données manuellement en suivant les instructions ici.

  • Ce ne sont pas toutes les données accessibles directement. Dans de nombreux cas, vous devrez peut-être interagir avec la page Web cible pour accéder aux données dont vous avez besoin, comme la connexion, la recherche avec des mots-clés ou même cliquer sur un menu déroulant. Consultez ce tutoriel pour savoir comment les gérer.

 

2. Si le bouton "Page suivant" détecté automatiquement n'est pas correct

Si la détection automatique ne parvient pas à localiser correctement le bouton "Suivant", vous pouvez facilement le réparer en cliquant sur "Modifier", puis suivez les instructions sur "Tips" pour sélectionner à nouveau le bon bouton "Page suivant".


 5555555555555555555.gif

 

 

Tips!

 

 

3. Si vous avez besoin de faire défiler plus de pages pour charger plus de données.

N'importe quand une page Web est détectée avec un défilement infinitif, Octoparse spécifie automatiquement le nombre de fois pour faire défiler la page. Si vous préférez faire défiler davantage avant de capturer les données, vous pouvez facilement ajuster le nombre de fois de défilement en cliquant sur «Edit», puis terminer les réglages.

Dans ce cas, "Repeats" signifie le nombre de fois qu'Octoparse doit faire défiler cette page et "Wait" signifie le temps d'attente entre chaque défilement.

 

 nnnnnn.gif

 

4. Si vous devez cliquer sur des liens sur la page pour obtenir des données plus détaillées

 

Dans de nombreux cas, vous devrez cliquer sur le lien de chaque produit pour accéder à la page de détail du produit qui vous donne des informations plus spécifiques, comme la description du produit. Octoparse vous propose une option simple dans les "Tips".

Il suffit de choisir "Click on link(s) to scrape the linked page(s)" et de choisir le champ de données sur lequel cliquer.

23423.gif

 

Vous pouvez également choisir "Click a link on the web page" et sélectionner le lien directement sur la page web.

 

2021-09-09_10-08-29.png

 

5. Utiliser directement le flux de travail(workflow)

Quand vous faites une tâche de scraping dans L'Octoparse, elle simule de réelles actions de navigation humaine, telles que l'ouverture d'une page Web et le clic sur un élément / bouton de page pour récupérer automatiquement les données. L'ensemble du processus d'extraction est défini automatiquement dans un flux de travail, chaque étape / action individuelle représentant une instruction particulière dans la tâche de scraping.

Quoique L'Octoparse essaie de faciliter les choses en générant automatiquement le workflow par la détection automatique, vous pouvez créer un nouveau à partir de zéro ou modifier le flux de travail généré automatiquement pour vous assurer que la tâche peut faire ce dont vous avez besoin.
 

Il y a de nombreux types d'actions que vous pouvez ajouter au flux de travail. Chaque étape a divers paramètres que vous pouvez modifier pour affiner votre tâche de scraping.
 

1. Réorganiser les étapes du workflow en les faisant glisser et en les déposant au bon endroit.
 4443424342.gif

 

2. Cliquer pour vérifier et modifier les paramètres de l'étape spécifique.

 

____.gif

 

3. Pour ajouter une étape supplémentaire au flux de travail, placez votre souris à l'endroit où vous souhaitez insérer l'étape. Attendez que le signe plus.png apparaisse, cliquez dessus et sélectionnez l'action que vous souhaitez ajouter. 
  

 ____.gif

 

6. Renommer, copier ou supprimer une étape en cliquant sur le bouton plus affiché.
 2021-09-08_18-16-00.png

Tips!

Si vous souhaitez optimiser plus profonde de votre tâche de scraping, consultez plus de techniques de création de tâches ici.

                                             

>> Leçon 3: Affiner vos données

Auteur : L'équipe Octoparse

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter