Facebook est une plate-forme avec une immense quantité de contenu généré par les utilisateurs. Vous pouvez faire beaucoup de choses avec les données de Facebook. Il peut être utilisé pour mieux comprendre votre public à des fins commerciales et politiques. Vous pouvez même collecter des posts d'utilisateurs ou en groupes et des commentaires pour effectuer une analyse sentimentale.

Avec Octoparse, il est facile d'obtenir des informations sur les publications de Facebook en utilisant les modèles d'Octoparse. c'est pas nécessaire de configurer les tâches de scraping. Saisissez simplement les mots-clés / URL et attendez que les données soient récupérées. Pour plus de détails, veuillez consulter ici: Modèles de Tâchesexternal-link-symbol-1.png

0.png

 

Si vous voulez configurer la tâche à partir de zéro, vous pouvez suivre le tutoriel ci-dessous. Nous vous montrerons comment scrapér les publications publiques d'un compte sur Facebook. Vous pouvez utiliser l'URL comme exemple:https://www.facebook.com/cnn/

Voici les principales 5 étapes de ce tutoriel: [Télécharger le fichier de tâche ici]

  1. "Aller à la page Web" - ouvrir la page Web cible
  2. Auto-détecter la page Web - créer un flux de travail 
  3. Modifier le XPath de "l'élément en boucle"
  4. Modifier les paramètres de la "Extraire les données"
  5. Exécuter l'extraction - exécuter la tâche et obtenir des données
 

 

1) "Aller à la page Web" - ouvrir la page Web cible

  • Entrez URL sur la page d'accueil et cliquez sur "Démarrer"

1.png

Octoparse chargerait automatiquement la page dans le navigateur intégré. Faites défiler la page manuellement et vous obtiendrez une fenêtre contextuelle.

mceclip1.png

 


 

  • Passez en mode Parcourir en cliquant surmceclip0.png
  • Cliquez sur "Pas maintenant" pour fermer la fenêtre contextuelle
  • Désactiver le mode Parcourir

1.1.gif

 

Tips!

Si vous souhaitez vous connecter pour voir plus d'informations, suivez ce tutoriel pour voir comment vous connecter à un site Web à Octoparse:Scraper les données derrière une connexion

 

 

2) Auto-détecter la page Web - créer un flux de travail 

  • Cliquez sur "Détecter automatiquement les données de la page Web" et attendez que la détection soit terminée (cela peut prendre un peu plus de temps car cette page applique un défilement infinitif vers le bas pour charger)

2.1.gif

 

  • Décochez l'option "Cliquez sur le bouton Charger plus"

2.2.png

  • Cliquez sur "Modifier" sous "Ajouter un défilement de page"
  • Configurer pour faire défiler vers le bas, répèter 20 fois, le temps d'attente est de 5 s

2.3.gif

 

  • Si nécessaire, Renommez ou supprimez des champs dans l'aperçu des données 

2.3.png

 

 

3) Modifier le XPath de "l'élément en boucle"

  • Accédez à la page des paramètres d'action "Élément en boucle" en cliquant sur le bouton d'engrenage dans la barre d'action
  • Entrez le Xpath //div[@role="article"][not(@aria-label="Comment")]/../..
  • Cliquez sur "OK" pour enregistrer les paramètres.

2.1.png

Tips!

XPath joue un rôle important dans la localisation des éléments corrects à Octoparse. Vous pouvez consulter le tutoriel ci-dessous pour en savoir plus:

Qu'est-ce que c'est XPath et comment l'utiliser dans Octoparse

 

 

4) Modifier les paramètres de la "Extraire les données"

Le temps de publication est scrapé à "1h" et il serait difficile d'identifier quand la publication est téléchargé. L'heure détaillée est stockée dans le code source. On peut modifier le paramètre pour l'obtenir.

  • Cliquez sur ouvrir les paramètres de "Extraire les données"
  • Cliquez sur le bouton "Personnaliser le XPath" du "Post_time"
  • Entrez the XPath //abbr

4.1.gif

  • Cliquez sur le "..." et choisissez "Personnaliser le champ"
  • Sélectionnez "Extraire l'attribut"
  • Choisissez l'attribut "titre" dans le menu déroulant
  • Cliquez sur "OK" pour confirmer

4.2.gif

 

 

5) Exécuter l'extraction - exécuter la tâche et obtenir des données

 

4.png

 

Voici l'exemple de production

mceclip2.png

 

Tutorial en español:  Scrapear posts públicos desde Facebook

También puedes leer más artículos de web scraping en el sitio web oficial

 

Auteur: Fergus

Editeur:Yina