undefined

Mode avancé - Créer votre propre crawler tout en pointant et cliquant (version 8)

Tuesday, June 08, 2021 11:06 AM

 

Ce tutoriel vise à vous renseigner sur le mode avancé d'Octoparse. Nous vous expliquerons pourquoi vous devriez l'utiliser et comment il va vous aider à atteindre votre objectif.

Le mode avancé d'Octoparse permet à tout le monde d'extraire des données de n'importe quel site Web à l'aide d'un simple pointer-cliquer, sans codage. Si vous voulez extraire des pages Web un peu plus compliquées ou si vous avez déjà réussi à extraire des données à l'aide de l'auto-détection, nous vous recommandons fortement d'essayer le mode avancé d'Octoparse et de découvrir de nombreuses possibilités qu'il vous apporte:

  • Scraper les informations de presque toutes les pages Web
  • Extraire les données telles que les textes, URLs, images et HTML
  • Interagir avec les pages Web pour effectuer des actions complexes telles que l'authentification de connexion, la recherche de mots-clés et le basculement de menu déroulant
  • Fine tune your workflow, such as add wait time, modify XPath, and reformat the data extracted
  • Peauffiner votre flux de travail, comme ajouter un temps d'attente, modifier XPath et reformater les données extraites

 

Démarrer une tâche en mode avancé

Il y a deux méthodes pour démarrer rapidement une nouvelle tâche dans mode avancé d'Octoparse:

1) Accédez à la page d'accueil, entrez l'URL de page Web cible et cliquez sur "Démarrer".

0.png

2) Juste sous le logo Octoparse, survolez votre curseur sur "+ Nouveau" et cliquez sur "Mode avancé".

1.png

 

Se familiariser avec l'interface du mode avancé d'Octoparse

workspace3.jpg

 

Navigateur intégré: Dès que vous aurez entré l'URL de page Web cible, la page sera chargée immédiatement dans le navigateur intégré d'Octoparse. vous pouvez passer au mode "Parcourir" afin de parcourir le site Web ou au mode "Sélection" pour sélectionner les données à extraire.

WorkflowTout au long de vos interactions avec la page Web, ouvrir une page Web et en cliquer sur un élément/bouton de page par exemple, l'ensemble du processus est défini automatiquement dans le flux de travail.

Panneau TipsOctoparse applique des Tips intelligentes pour "parler" avec vous tout au long du processus d'extraction, afin de vous guider à création de tâches.

Aperçu des donnéesAvoir un aperçu des données sélectionnées. Vous pouvez renommer les champs de données ou supprimer les données indésirées.

 

Comment utiliser le mode avancé d'Octoparse pour créer des tâches manuellement

Pour créer une tâche manuellement à l'aide du mode avancé, il faut d'abord ignorer le processus d'auto-détection en cliquant sur "Désactiver l'auto-détection".

2.png

 

Ensuite, cliquez sur les données cibles sur la page Web. Suivez les conseils affichés dans le panneau Tips pour poursuivre le processus de création de tâches. Les étapes de la construction sont assez simples :

Sélectionnez les données vous désirez sur la page Web >> Suivez les instructions indiquées dans "Tips d'action" >> Vérifiez votre flux de travail >> Exécutez la tâche pour obtenir des données

Comme les pages Web changent tout le temps, de différentes personnes pourraient avoir besoin d'ensembles de données différents. Le mode avancé d'Octoparse est créé avec la flexibilité et la polyvalence, ceux qui sont requises pour gérer toutes sortes de besoins de grattage. Pour assurer qu'il soit adoptable pour les non-codeurs, le mode avancé d'Octoparse montre des Tips étape par étape dans le panneau de "Tips d'action" tout au long de configuration de tâche.

 

Sélectionner les données vous désirez sur la page Web

Dans le navigateur intégré, sélectionnez les données que vous désirez par clics. Lorsque vous survolez votre curseur sur la page Web, Octoparse essaie de "comprendre" ce que vous souhaitez récupérer et mettra en évidence les éléments de la page autour de votre curseur. Vous pouvez déplacer doucement votre curseur si la zone en surbrillance est proche de ce que vous souhaitez extraire.

Après que toutes les données vous désirez sont surlignées en bleu, ce qui signifie qu'ils ont été sélectionné avec succès, vous pouvez aller confirmer vos sélections.

Répétez ce processus si vous souhaitez extraire plusieurs éléments sur la même page.

3.gif

 

Suivez les instructions fournies dans le panneau "Tips d'action"

Octoparse tente de vous guider tout au long du processus de configuration de tâches en proposant toutes les prochaines étapes possibles dans le panneau "Tips d'action". C'est le moyen qu'adopte Octoparse pour "communiquer" avec vous.

Chaque fois que vous sélectionnez un élément, le panneau "Tips d'action" s'affichera avec un certain nombre d'options à sélectionner. Suivez simplement les instructions fournies et choisissez les actions que vous souhaitez appliquer aux données sélectionnées. Par exemple, si vous souhaitez gratter le texte des éléments sélectionnés, vous pouvez choisir "Extraire le texte de l'élément sélectionné"; ou si vous souhaitez cliquer sur l'élément sélectionné pour accéder à la page liée, vous pouvez choisir "Cliquer sur l'élément".

4.png

 

Voici les actions les plus utilisées:

Extraire le texte de l'élément sélectionné - capturer le texte de l'élément sélectionné

Cliquer sur l'élément - cliquer sur l'élément sélectionné

Extract the HTML of the selected element  - extraire le HTML de l'élément sélectionné

Cliquer en boucle sur un seul élément- cliquer continuellement sur l'élément sélectionné (similaire à Cliquer en boucle "Page suivante" ou Cliquer en boucle une seule URL)

Extraire l'URL de l'élément sélectionné - capturer l'URL du lien sélectionné (après avoir sélectionné un lien)

Extraire l'URL de l'image sélectionnée - capturer l'URL de l'image sélectionnée (après avoir sélectionnune image)

Tout sélectionner - sélectionner tous les éléments similaires (lorsque des éléments similaires sont tous détectés)

 

Tips:

  • Quand un élément cible est difficile à localiser avec le curseur, vous pouvez utiliser les balises HTML situées au bas du panneau "Tips d'action" pour affiner la sélection.

5.png

  • L'icône mceclip1.png est utilisé pour élargir la zone de sélection, qui peut être utilisé pour étendre la sélection actuelle, afin d'inclure la balise html externe. Par exemple, si vous souhaitez extraire la zone entourant l'élément sélectionné tout entièrement, vous pouvez continuer à cliquer sur le bouton mceclip1.png jusqu'à ce que toute la partie soit surlignée en vert.
 

 

3. Vérifier le workflow 

Lorsque vous créez la tâche de grattage, Octoparse crée simultanément un flux de travail en fonction de la façon dont vous avez interagi avec la page Web ainsi qu'avec le panneau Conseils.

Voici un exemple de workflow:

 

mceclip2.png

Quelques points à vérifier avant d'exécuter la tâche :

1) Si les actions de workflow sont correctement placées.

Vous pouvez réorganiser les actions du flux de travail en les glissant-déposant au bon endroit.

workflow.gif

2) Si chaque action doit être affinée avec plus de paramètres.

Vous pouvez le vérifier par survoler le curseur sur une action spécifique. Pour modifier le paramétrage d'une action, cliquez sur mceclip4.png et modifiez les paramètres si nécessaire.

setting.png  setting2.png

Tips!

Consultez ce tutoriel pour savoir plus sur la façon de vérifier votre flux de travail étape par étape:

Leçon 4 : Tester la tâche

 

 

4. Exécuter la tâche

Maintenant, vous avez fini de créer et de tester votre tâche, vous pouvez l'exécuter en cliquant sur le bouton "Exécuter". Vous pouvez l'exécuter localement sur votre appareil ou dans le Cloud.

6.png

 

Tips!

Voici quelques tutoriels sur la façon de gérer différents types de structures de page:

En savoir plus à Interactif avec des pages Web

 

Auteur: Yina

Editeur: Isabel

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter