Toutes les collections
Utiliser Octoparse
Scraper des informations sur les etoiles de classement
Scraper des informations sur les etoiles de classement

Dans ce tutoriel, nous allons vous montrer comment extraire les informations sur le classement par étoiles dans les pages Web.

Mis à jour il y a plus d’une semaine

Parfois, nous pouvons pas scraper les informations sur les etoiles de classement directement comme on le fait pour d'autres informations textuelles, comme le titre de la page. Dans le cas ci-dessous, les informations d'évaluation sont stockées dans la valeur de l'attribut "alt" de l'élément "img". Dans ce tutoriel, nous allons vous montrer comment extraire ce type d'informations sur le classement par étoiles dans les pages Web.

Exemple de site :

1). Extraire les attributs du code source

1. Sélectionnez la zone de classement sur la page Web et choisissez Extraire l'URL de l'image sélectionnée. Vous pouvez également choisir d'extraire le texte ou le code HTML ici. Cette étape sert uniquement à créer un champ de données.

2. Cliquez sur l'action Extraire des données et cliquez sur l'icône "...". Choisissez ensuite le champ Personnaliser

3. Sélectionnez Extraire l'attribut, puis sélectionnez alt

4. Le résultat sera affiché dans le champ

2). Extraire et nettoyer le code HTML

1. Sélectionnez la zone de classement sur la page Web et choisissez Extraire le HTML externe de l'élément sélectionné

2. Cliquez sur l'icône "...". Choisissez ensuite Nettoyer les données

3. Après cela, cliquez sur Ajouter une étape, puis choisissez Match avec expression régulière.

4. Si vous savez comment utiliser l'expression régulière, vous pouvez saisir la formule directement dans la boîte Expression régulière. Si vous n'êtes pas familiarisé avec cette technique, cliquez sur "Vous ne connaissez pas bien l'expression régulière ? Essayez l'outil RegEx".

5. Cliquez sur Commencer par, puis saisissez la section de la chaîne de caractères précédant l'information dont nous avons besoin. Ensuite, cliquez sur Finir par, puis saisissez la partie de la chaîne de caractères après l'information dont nous avons besoin.

Après cela, cliquez sur Match pour voir si les informations correspondantes sont celles dont nous avons besoin. Cliquez ensuite sur Appliquer.

6. Retournez dans les paramètres et confirmez-les.

7. Après avoir défini tous les paramètres, cliquez sur Appliquer pour enregistrer

Avez-vous trouvé la réponse à votre question ?