undefined

Scraper des informations sur les etoiles de classement

Tuesday, April 19, 2022 5:29 PM

Vous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons fortement de la renouveler car elle est plus rapide, plus facile et plus robuste !  Téléchargez et renouvelez ici si vous ne l'avez pas encore fait !

Parfois, nous pouvons pas scraper les informations sur les etoiles de classement directement comme on le fait pour d'autres informations textuelles, comme le titre de la page. Dans le cas ci-dessous, les informations d'évaluation sont stockées dans la valeur de l'attribut "alt" de l'élément "img". Dans ce tutoriel, nous allons vous montrer comment extraire ce type d'informations sur le classement par étoiles dans les pages Web.

Exemple de site : 

https://www.trustpilot.com/review/airforcegiftshop.co.uk

 

 

Il y a deux façons de récupérer les informations sur le classement par étoiles :

1). Extraire les attributs du code source

2). Extraire et nettoyer le code HTML

 

1). Extraire les attributs du code source

1. Sélectionnez la zone de classement sur la page Web et choisissez Extraire l'URL de l'image sélectionnée. Vous pouvez également choisir d'extraire le texte ou le code HTML ici. Cette étape sert uniquement à créer un champ de données.

 

 

 

2. Cliquez sur l'action Extraire des données et cliquez sur l'icône "...". Choisissez ensuite le champ Personnaliser 

 

 

3. Sélectionnez Extraire l'attribut, puis sélectionnez alt

 

 

4. Le résultat sera affiché dans le champ

 

 

 

2). Extraire et nettoyer le code HTML

1. Sélectionnez la zone de classement sur la page Web et choisissez Extraire le HTML externe de l'élément sélectionné

 

 

 

 

2.  Cliquez sur l'icône "...". Choisissez ensuite Nettoyer les données

 

3. Après cela, cliquez sur Ajouter une étape, puis choisissez Match avec expression régulière.

 

 

 

4. Si vous savez comment utiliser l'expression régulière, vous pouvez saisir la formule directement dans la boîte Expression régulière. Si vous n'êtes pas familiarisé avec cette technique, cliquez sur "Vous ne connaissez pas bien l'expression régulière ? Essayez l'outil RegEx".

 

 

5. Cliquez sur Commencer par, puis saisissez la section de la chaîne de caractères précédant l'information dont nous avons besoin. Ensuite, cliquez sur Finir par, puis saisissez la partie de la chaîne de caractères après l'information dont nous avons besoin.

Après cela, cliquez sur Match pour voir si les informations correspondantes sont celles dont nous avons besoin. Cliquez ensuite sur Appliquer.

6. Retournez dans les paramètres et confirmez-les.

7. Après avoir défini tous les paramètres, cliquez sur Appliquer pour enregistrer

 

 

Si vous avez des questions, vous pouvez soumettre une demande ici. Notre équipe d'assistance vous contactera par la suite.

 

 

 

 

 

 

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter