undefined

Localiser et gratter un élément via le texte à proximité

Tuesday, July 06, 2021 11:50 AM

Octoparse utilise XPath pour suivre les données. Néanmoins, les données peuvent changer parfois la position sur la page Web. Pour résoudre ce problème, nous allons vous montrer comment extraire des données avec plus de précision en associant les données avec le texte à proximité.

Tout d'abord, regardons un exemple de cas où cette technique peut être utilisé.

32626.png

Dans l'image ci-dessus, nous pouvons voir que la valeur de "Marque" est située à côté des mots "Marque". De même, la valeur du "Poids de l'article" peur toujours être trouvée à côté des mots "Poids de l'article". Le même schéma devrait s'appliquer au reste de la liste.
 
Bien que le "Poids de l'article" pourrait changer de position entre la troisième ligne et la quatrième ligne de la liste, sa valeur associée doit toujours être trouvée à côté. Par conséquent, un moyen plus cohérent de trouver et de capturer les valeurs associées de tous les éléments consiste à rechercher d'abord la position des mots, puis à localiser les données à côté. Dans cet exemple, au lieu d'essayer de trouver la valeur de "10 livres" directement sur la page, nous la capturerons plus précisément par la relier au texte "Poids de l'article".
 
Suivez les étapes ci-dessous pour voir comment cela fonctionne:
 
1) Cliquez sur "10 livres" pour capturer la valeur du "Poids de l'Article". Après l'avoir extraite, cliquez sur l'icône Paramètres d'Action pour vérifier le(s) champ(s) de données
 
233232.png
 
2) Cliquez sur "Personnaliser XPath"
23626.png
 
3) Trouvez le XPath relatif au texte du champ de données cible
  • Maintenant, ouvrez la page dans Chrome, faites un clic droit sur chaque donnée pour les inspecter

95415626526.gif

 

  • Veuillez noter que les mots réels de "Poids de l'article" peuvent être trouvés dans la balise <th> et sa valeur associée, dans la balise <td> juste en dessous..
  • 262626.png
  • Une fois que nous avons vu le modèle, nous pouvons ensuite écrire un XPath pour rechercher la valeur de "Poids de l'article" par rapport à l'endroit où nous trouverons réellement les mots :"//th[contains(text(),'Item Weight')]/following-sibling::td[1]" - Cette expression XPath indique au programme de rechercher la balise <th> contenant le texte de "Poids de l'article" puis de trouver la première balise <td> située juste en dessous. Cette opération nous donnera exactement ce que nous voulons: la valeur associée de "Poids de l'article".

16156212.png

  • Saisissez le nouveau XPath dans l'encadré pour "XPath Correspondant", cliquez sur "OK" pour enregistrer les paramètres.

1461262.png

 
Maintenant, Octoparse recherchera toujours la valeur associée de "Poids de l'article" selon la position des mots "Poids de l'article" sur la page Web. Appliquer cette technique à des champs similaires de la liste pour réduire le risque que l'élément ne soit pas trouvé
 

Tips!

"Following-sibling" est très souvent utilisé pour rechercher un élément situé à côté d'un autre élément désigné.

En savoir plus sur XPATH  ici!

 

Si vous avez besoin d'aide pour la configuration des tâches ou la collecte de données, envoyez un ticket à notre équipe d'assistance! Nous vous répondrons bientôt.

 

Tutorial en español:  Localizar y scrapear un elemento a través del texto cercano

También puedes leer más tutoriales de web scraping en sitio web oficial

 

Auteur: Kara
Editeur: Yina
 
 
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter