Scraper des données de page (métadonnées, URL de la page, titre de la page, code source)
Monday, May 09, 2022 10:38 AMDans ce tutoriel, nous allons vous montrer comment utiliser Octoparse pour extraire des données de page, notamment l'URL,la page Web, le titre de la page, la méta-description, les mots-clés et le code source HTML.
Comment ajouter les données ?
1. Cliquez sur "Extraire les données/Extract Data"
2. Allez à l'"Aperçu des données/Data Preview"
3. Cliquez sur
pour ajouter les champs de données
4. Survolez "Page-level data" pour sélectionner l'information que vous voulez.
Les données sélectionnée de la page seront automatiquement ajoutées comme champ à cette action "Extraire des données".
5. Renommez le champ de données si nécessaire en double-cliquant sur le nom du champ.
Signification des champs
-
Page URL : Ajoutez l'URL de la page actuelle ainsi que les données correspondantes.
Il est utile lorsque vous souhaitez vérifier les champs de données manquants sur une page : Comment faire avec les champs vides du résultat de l'extraction? -
Titre de la page : extrait le contenu de la balise titre dans le code HTML
Il s'agit d'une brève description d'une page web qui apparaît en haut de la fenêtre d'un navigateur.
-
Méta description : extrait le contenu de la balise méta description
Cette balise contient un résumé du contenu de la page.
-
Méta mot clé : extrait le contenu de la balise du méta mot clé
La collecte du titre de la page, de la méta-description et des mots-clés méta est utile lorsque les utilisateurs ont besoin d'améliorer leur SEO.
-
Code source HTML : le code HTML complet de la page web.
Si vous avez besoin d'aide pour la configuration des tâches ou la collecte des données, soumettez un ticket à notre équipe d'assistance. Nous vous répondrons rapidement.