Toutes les collections
Utiliser Octoparse
Extraire des données en fonction de critères (Trigger)
Extraire des données en fonction de critères (Trigger)

Ce tutoriel va vous expliquer comment extraire des données en fonction de critères.

Mis à jour il y a plus d’une semaine

Dans Octoparse, on utilise les déclencheurs comme des conditions et contraintes pour juger rapidement d'abandonner ou de conserver certaines lignes de données. Ce faisant, les utilisateurs peuvent filtrer directement les données qu'ils souhaitent et ceux qu'ils n'ont pas besoin. Ainsi, ils n'ont plus besoin d'exporter les données tout entièrement dans des fichiers Excel ou CSV et supprimer les données indésirables manuellement plus tard.

Quand utiliser le Déclencheur ?

Cas 1

Si vous voulez récupérer des produits d'un site Web e-commerce et que vous souhaitez uniquement des produits de moins de 100 USD, vous pouvez utiliser Trigger pour supprimer des lignes de données "inutiles" - les produits dont le prix est égal/supérieur à 100 USD, et ne conserver que le ceux dont vous avez besoin.

Pour y parvenir, vous pouvez créer un déclencheur comme celui-ci : si le champ de données "prix" est égal ou supérieur à "100", faites "vider la ligne de données". Ce faisant, Octoparse "jugera" si les données répondent aux critères définis avant de les extraire. L'ensemble de données n'aura ainsi que les données souhaitées.

Cas 2

Une autre application du déclencheur est de vous aider à extraire des données associées à une date spécifique, par exemple, tous les articles de presse publiés aujourd'hui (ex. 01-01-2020). Pour y parvenir, vous pouvez créer un déclencheur comme ceci: Si le champ de données "date" n'est pas "2020-01-01", faites "vider la ligne de données". Ce faisant, vous ne récupérerez que les articles publiés le 01-01-2020.

Vous pouvez aussi utiliser plusieurs conditions ensemble. Par exemple, si vous devez extraire des articles d'actualité pour le 01-01-2020 et uniquement les articles intitulés le mot "CPI", cela peut être fait en utilisant les deux conditions suivantes :

Condition 1:Si le champ de données "date" n'est pas "2020-01-01", faites "vider la ligne de données"

[ET]

Condition 2: Si le champ de données "titre" ne contient pas "CPI", faites "vider la ligne de données"

Comment utiliser un Déclencheur ?

1. Créez un nouveau déclencheur

  • Accédez aux paramètres de l'action "Extraire les données"

  • Cliquez sur l'option "Ajouter un déclencheur" pour créer un nouveau déclencheur

2. Nommez votre Déclencheur

  • Ssaisissez le nom directement dans la zone "Nom du déclencheur" pour le nommer

3. Choisissez le champ cible et configurez la condition

  • Sélectionnez le champ cible dans le menu déroulant

  • Définissez la condition pour le champ de données sélectionné. Vous pouvez définir des conditions basées sur "texte", "chiffres" ou "heure"

Il y a trois conditions différentes qui peuvent couvrir la plupart de vos demandes, des textes aux nombres, même l'heure et les dates.

a. Pour textes

Il y a cinq options (est, n'est pas, contient, ne contient pas, n'est pas vide) pour les textes.

Par exemple, si vous sélectionnez "contient" et tapez le mot "Pomme" dans la zone de texte, la condition entière sera : Si le champ de données "Titre" contient le mot "Pomme".

Tips!

  • La valeur du texte est sensible à la casse. Veuillez vous assurer que vous avez entré le bon texte.

  • Si "n'est pas vide" est sélectionné, vous n'avez plus besoin de remplir la zone de texte, et la condition sera : Si le champ de données "Titre" n'est pas vide.

b. Pour chiffres

Trois options sont disponibles pour les chiffres (supérieur à, inférieur à, ou égal à).

Par exemple, si vous sélectionnez le champ de données "Prix", le déclencheur "supérieur à" et remplissez la valeur "500", la condition sera : Si le champ de données "Prix" est supérieur à "500".

c. Pour l'heure et la date

Quatre options sont disponibles pour l'heure et la date (après, avant, le ou après, le ou avant).

Par exemple, pour le champ de données "Heure", si vous sélectionnez "après", "12h du jour d'extraction" et faites "vider la ligne de données", la condition sera : si l'heure est après 12h du jour d'extraction, vider la ligne de données. Par conséquent, seuls les threads publiés avant 0h00 du jour de l'extraction seront récupérés.

Vous pouvez aussi utiliser l'heure actuelle ou personnaliser l'heure ou la plage de dates.



4. Utilisez [ET] ou [OU]pour ajoutez plus de conditions

Vous pouvez ajouter plusieurs conditions dans un même déclencheur. Utilisez la condition [ET] ou la condition [OU] pour définir les relations entre les différentes conditions.

Si vous cliquez sur "Ajouter une condition [ET]" et ajoutez une condition, l'action ne sera exécutée que lorsque le champ de données remplit les deux conditions.

Si vous cliquez sur "Ajouter une condition [OU]" et ajoutez une condition, l'action sera exécutée lorsque le champ de données remplit l'une ou l'autre des deux conditions.

5. Choisissez une action dans "Faire"

En fonction des conditions que vous avez définies, Octoparse exécutera l'une des étapes suivantes lorsque les conditions sont déclenchées.

a. Vider la ligne de données

Si "Vider la ligne de données" est sélectionné, Octoparse abandonnera toutes les lignes de données actuelles, peu importe dans quelles étapes elle a été déclenchée.

b. Quitter la boucle

Si vous voulez choisir "Quitter la boucle", vous devrez choisir d'abord un élément de boucle à terminer.

c. Arrêter toute l'extraction

Si "Arrêter toute l'extraction" est sélectionné, l'extraction sera terminée une fois la condition correspondante remplie.

CONSEIL : Vous pouvez modifier, copier, supprimer ou désactiver le déclencheur existant après avoir enregistré les modifications.

Avez-vous trouvé la réponse à votre question ?