Parfois, nous ne pouvons pas extraire les informations d'évaluation directement comme gratter d'autres informations au format texte, le titre de page par exemple. C'est parce que les informations d'évaluation sont stockées dans la valeur de l'attribut "alt" au sein de l'élément "img". Dans ce tutoriel, nous allons vous montrer comment extraire les informations de classement par étoiles des pages Web.

Site d'exemple: https://www.trustpilot.com/review/airforcegiftshop.co.uk

mceclip4.png

 

Il y a deux manières pour récupérer les informations de classement par étoiles :

1) Extraire les attributs du code source

2) Extraire et nettoyer le code HTML

 

1) Extraire les attributs du code source

1. Sélectionnez la zone d'évaluation sur la page Web et choisissez "Extraire l'URL de l'image sélectionnée". Vous pouvez aussi y extraire le texte ou le code HTML. Cette étape sert uniquement à créer un champ de données.

mceclip0.png

2. Double-cliquez sur l'action "Extraire les données" ou cliquez sur l'icône d'engrenage pour ouvrir les paramètres. 

mceclip1.png

3. Cliquez sur l'icône "...". Choisissez ensuite l'option "Personnaliser le champ".

mceclip2.png

4. Sélectionnez "Extraire l'attribut" puis sélectionnez "alt". Le résultat sera affiché dans la case "Exemple".

mceclip5.png

5. Après avoir enregistré les modifications, revenez à la page d'accueil, et vous constaterez que le résultat est devenu l'information d'évaluation.

mceclip7.png

 

2) Extraire et nettoyer le code HTML

1. Sélectionnez la zone d'évaluation sur la page Web et choisissez "Extraire le code HTML externe de l'élément sélectionné".

mceclip8.png

2. Accédez aux paramètres de l'action "Extraire les données" et choisissez "Nettoyer les données".

mceclip9.png

3. Après cela, cliquez sur "Ajouter une étape", puis choisissez "Correspondre à une expression régulière".

mceclip11.png

4. Si vous connaissez l'utilisation d'expression régulière, vous pouvez entrer la formule directement dans la zone "Expression régulière". Si non, cliquez sur "Vous n'êtes pas sûr de RegEx ? Essayez l'outil RegEx!".

mceclip12.png

5. Cliquez sur "Commencer par", puis saisissez la partie des chaînes avant les informations réelles dont nous avons besoin. Ensuite, cliquez sur "Terminer par" et saisissez la partie après les informations réelles dont nous avons besoin.

Après cela, sélectionnez "Tout faire correspondre", puis cliquez sur "Correspondre" pour voir si les informations correspondantes sont exactement ce dont nous avons besoin. Cliquez ensuite sur "Appliquer".

mceclip14.png

6. Vérifiez le résultat lorsque vous revenez aux paramètres. Cochez l'option "Tout correspondre" et confirmez-la.

mceclip15.png

 

Si vous avez des questions, vous pouvez soumettre une demande ici. Notre équipe d'assistance vous recontactera ultérieurement.

 

Tutorial en español:  Extraer información de clasificación por estrellas

También puedes leer más tutoriales de web scraping en sitio web oficial

 

Aueur: Fergus

Editeur: Yina

 

Les articles récemment cocnsultés