undefined
Blog > Big Data > Post

Comment scraper des tweets sur twitter?

Monday, August 23, 2021

Dans ce tutoriel, je vais vous montrer comment extraire des données de Twitter en 5 minutes sans utiliser l'API Twitter, Tweepy, Python, ou écrire une seule ligne de code.

 

Pour extraire des données de Twitter, vous pouvez utiliser un outil de web scraping automatisé - Octoparse. Comme Octoparse simule l'interaction humaine avec une page Web, il vous permet d'extraire toutes les informations que vous voyez sur n'importe quel site Web, comme Twitter. Par exemple, vous pouvez facilement extraire les tweets d'un manipulateur, les tweets contenant certains hashtags, ou postés dans un laps de temps spécifique, etc. Tout ce que vous avez à faire est de saisir l'URL de votre page Web cible et de la coller dans le navigateur intégré d'Octoparse. En quelques clics, vous pourrez créer vous-même un crawler à partir de rien. Une fois l'extraction terminée, vous pouvez exporter les données dans des feuilles Excel, CSV, HTML, SQL, ou les diffuser dans votre base de données en temps réel via les API d'Octoparse.

L'étude de cas : Scrape Twitter discussions for sentiment analysis

 

Sommaire

 

Avant de commencer, vous pouvez cliquer ici pour installer Octoparse sur votre ordinateur. Voyons maintenant comment construire un crawler Twitter en 3 minutes.  

 

Étape 1 : Entrer l'URL et construire une pagination

Introduction: Qu'est-ce que la pagination ?

Disons que nous essayons de récupérer tous les tweets d'un certain gestionnaire. Dans ce cas, nous récupérons le compte Twitter officiel d'Octoparse. Comme vous pouvez le voir, le site Web est chargé dans le navigateur intégré. Habituellement, de nombreux sites Web disposent d'un bouton "page suivante" qui permet à Octoparse de cliquer et d'aller sur chaque page pour obtenir plus d'informations. Dans ce cas, cependant, Twitter applique la technique du "défilement infini", ce qui signifie que vous devez d'abord faire défiler la page vers le bas pour laisser Twitter charger quelques tweets supplémentaires, puis extraire les données affichées à l'écran. Le processus d'extraction final se déroulera donc comme suit : Octoparse fera défiler la page un peu, extraira les tweets, fera défiler un peu, extraira, et ainsi de suite.

Pour permettre au robot de faire défiler la page de manière répétitive, nous pouvons construire une boucle de pagination en cliquant sur la zone vide et en cliquant sur "loop click single element" dans le panneau Tips. Comme vous pouvez le voir ici, une boucle de pagination est affichée dans la zone de travail, ce qui signifie que nous avons construit une pagination avec succès. 

  

 

 

 

Étape 2 : Construire un élément de boucle pour extraire les données

Introduction: Qu'est-ce que le loop item ?

Maintenant, extrayons les tweets. Disons que nous voulons obtenir le gestionnaire, l'heure de publication, le contenu du texte, le nombre de commentaires, de retweets et de likes.

Tout d'abord, nous allons construire une boucle d'extraction pour obtenir les tweets un par un. Nous pouvons placer le curseur sur le coin du premier tweet et cliquer dessus. Lorsque le tweet entier est surligné en vert, cela signifie qu'il est sélectionné. Répétez cette action sur le deuxième tweet. Comme vous pouvez le voir, Octoparse est un robot intelligent et il a automatiquement sélectionné tous les tweets suivants pour vous. Cliquez sur "extract text of the selected elements" et vous verrez qu'une boucle d'extraction est intégrée au workflow. 

Mais nous voulons extraire différents champs de données dans des colonnes distinctes au lieu d'une seule. Nous devons donc modifier les paramètres d'extraction pour sélectionner manuellement nos données cibles. C'est très facile à faire. Assurez-vous d'aller dans le "action setting" de l'étape "extract data". Cliquez sur le gestionnaire, et cliquez sur "extract the text of the selected element". Répétez cette action pour obtenir tous les champs de données que vous voulez. Une fois que vous avez terminé, supprimez la première colonne géante dont nous n'avons pas besoin et enregistrez le crawler. Maintenant, notre dernière étape nous attend. 

  

Étape 3 : Modifier le paramètre de pagination et exécuter le crawler

 

Nous avons construit une boucle de pagination plus tôt, mais nous avons encore besoin d'une petite modification sur le paramètre du workflow. Comme nous voulons que Twitter charge entièrement le contenu avant que le robot ne l'extraie, définissons le délai AJAX à 5 secondes, pour donner à Twitter 5 secondes de chargement après chaque défilement. Ensuite, définissons à la fois les répétitions de défilement et le temps d'attente à 2 pour s'assurer que Twitter charge le contenu avec succès. Maintenant, pour chaque défilement, Octoparse fera défiler 2 écrans, et chaque écran prendra 2 secondes. 

Revenez au paramètre de l'élément de boucle pour modifier la durée de la boucle à 20. Cela signifie que le robot répétera le défilement pendant 20 fois. Vous pouvez maintenant exécuter le robot sur votre appareil local pour obtenir les données, ou l'exécuter sur les serveurs Octoparse Cloud pour planifier vos exécutions et économiser vos ressources locales. Remarquez que les cellules vides dans les colonnes signifient qu'il n'y a pas de données originales sur la page, donc rien n'est extrait. 

 

Si vous avez des questions sur le scraping de Twitter ou de tout autre site Web, envoyez-nous un courriel à support@octoparse.com Nous sommes prêts à vous aider !

 

 

Auteur: Milly

 

En savoir plus

Top 5 des outils de scraping des réseaux sociaux pour 2021

Scraper les publications publiques de Facebook

Top 5 des téléchargeurs d'images en masse

Comment extraire les notes et les avis clients sur Amazon pour l'analyse des sentiments?

 

 

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter