undefined

Instruction conditionnelle

Monday, July 12, 2021 11:57 AM

Toutes les pages ne sont pas créées de la même façon. Lorsque les pages Web présentent des variations, vous pouvez utiliser des "Instructions conditionnelles" pour effectuer un grattage basé sur les conditions. Voici comment cela fonctionne :

 54345345.gif

 

Quand devriez-vous envisager d'utiliser les "Instruction conditionnelle" ?

Il existe deux principaux scénarios dans lesquels les "Instructions conditionnelles" peuvent être utiles.
1) Lorsque vous souhaitez uniquement obtenir des données de certaines pages avec une balise spécifique, telles que "Nouveau", "Vente chaude", "En vente", etc.
2) Lorsque les données de la page sont affichées sous différentes formes, c'est-à-dire qu'elles apparaissent parfois sous forme de texte, et parfois sous forme d'images.
 
Dans l'image d'exemple ci-dessous, nous avons besoin d'informations des ordinateurs portables vendus. Observons la page de détail du produit, il semble que nous pouvons utiliser l'icône "en vente" comme condition pour tester : si l'élément  est trouvé sur la page du produit, nous continuerons à capturer des informations sur le produit ; sinon, nous sauterons entièrement la page/le produit.

45634534534.gif

 

 
Voyons comment c'est fait ! Pour poursuivre, vous pouvez utiliser cette URL:
 
1) Créez une boucle pour cliquer sur chaque lien de la liste (consulter le tutoriel)
2) Utilisez des "Instructions conditionnelles" pour tester la condition : si l'icône est présente sur la page de l'article
  • Passez votre souris sur6534534534534.png pour ajouter l'Instruction conditionnelle
  • Cliquez sur 46456456.png pour ajouter une action "Instruction conditionnelle" à l'intérieur de la boucle

4565334534534534.png

 

 

456345345345.gif

  • Cliquez sur  mceclip0.png de la branche sur le côté gauche, sélectionnez "Exécuter si la page actuelle contient l'élément spécifique"
  • Saisissez le XPath de l'élément 15154161256.png : "//div[@class='pricing-price__savings']" dans l'encadré dessous (comment obtenir le XPath ).

Tips!

Si l'écriture de XPath est trop difficile pour vous, vous pouvez cliquer sur mceclip2.png et sélectionner l'élément à partir de la page Web. Octoparse générerait automatiquement un XPath.

1.gif


  • Cliquez sur "OK"
  • Cliquez sur la branche à droite, sélectionnez "Toujours exécuter la branche"
  • Cliquez sur "OK"

25619645615616151.gif

Tips!

Dans Octoparse, vous pouvez configurer la condition sur l'un des éléments suivants:

1. Toujours exécuter la branche

Lorsque cette option est sélectionnée, Octoparse ne jugera rien et lancera immédiatement l'exécution des actions au sein de la branche. Sélectionnez cette option uniquement pour la branche sur le côté droit.

2. Exécuter si la page contient un texte spécifique

Lorsque cette option est sélectionnée, Octoparse recherchera la chaîne de texte désignée dans la page actuelle.

3. Exécuter si la page actuelle contient un élément spécifique

When selected, Octoparse will look for the designated element (according to the XPath filled in) within the current page.

4. Exécuter si la boucle actuelle contient un texte spécifique

Lorsque cette option est sélectionnée, Octoparse recherchera la chaîne de texte désignée dans l'élément de boucle actuel.

5. Exécuter si la boucle actuelle contient un élément spécifique

Lorsque cette option est sélectionnée, Octoparse recherchera l'élément désigné (selon le XPath Relatif saisi) dans l'élément de boucle actuel. Utilisez cette option uniquement lorsque vous avez besoin de juger entre les éléments d'une boucle.

 
3) Sur la page de l'article du produit (sélectionnez un article de la boucle qui contient l'élément (15154161256.png), cliquez sur les champs de données à capturer (en savoir plus). Renommez les champs si nécessaire.

 56262.gif

 

4) Faites glisser l'action "Extraire les données" dans la branche à gauche

651512561.gif

 

Alors maintenant, nous avons configuré Octoparse pour rechercher l'élément 15154161256.png sur la page. Si l'élément est trouvé, capturez les données souhaitées, sinon, ignorez le produit.

41614561561.png

 

Tips!

1. Si la condition est définie comme "si un élément est trouvé", l'élément désigné doit être trouvé de manière unique sur la page ou le jugement ne fonctionnera pas.

2. Octoparse parcourt les branches de gauche à droite par défaut. Il est important de toujours conserver la condition que vous souhaitez tester dans la branche gauche ; si la condition pour la branche de gauche est "Toujours exécuter la branche", Octoparse ne passera pas à la branche de droite car "Toujours exécuter la branche" sera toujours testé "Vrai".

3. Vous pouvez laisser la branche vide si aucune action d'extraction n'est nécessaire lorsque la condition n'est pas remplie.

4. Lorsqu'une action d'extraction de données est ajoutée aux deux branches, le nombre de champs de données et le nom des champs de données doivent être les mêmes.

5. Vous pouvez utiliser le jugement de branche imbriqué pour affiner davantage le test.

 

Si vous avez besoin d'aide pour la configuration des tâches ou la collecte de données, envoyez un ticket à notre équipe d'assistance! Nous vous répondrons bientôt.

 

Artículo en español:  Branch Condition

También puedes leer artículos de web scraping en sitio web oficial

 

Author: Kara

Editor: Tina

 

Les articles récemment consultés

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter