Dans cet article, je vais vous montrer comment extraire des données de Twitter en 5 minutes sans utiliser l’API Twitter, Tweepy, Python, ni écrire une seule ligne de code.
Pour extraire des données de Twitter, vous pouvez utiliser un outil de web scraping automatisé – Octoparse. Comme Octoparse simule l’interaction humaine avec une page Web, il vous permet d’extraire toutes les informations que vous voyez sur n’importe quel site Web, comme Twitter. Par exemple, vous pouvez facilement extraire les tweets d’un manipulateur, les tweets contenant certains hashtags, ou postés en une date spécifique, etc, une fois qu’on lance une recherche avancée. Tout ce que vous avez à faire est de saisir l’URL de votre page Web cible et de la coller dans le navigateur intégré d’Octoparse. En quelques clics, vous pourrez créer par vous-même un crawler à partir de rien. Une fois l’extraction terminée, vous pouvez exporter les données dans des feuilles Excel, CSV, HTML, SQL, ou les diffuser dans votre base de données en temps réel via les API d’Octoparse.
L’étude de cas : Comment analyser l’opinion publique sur les réseaux sociaux (ex : discussion de la présidentielle sur Twitter)
Tout d’abord, je vous conseille de télécharger Octoparse sur votre ordinateur et puis de suivre les étapes suivantes pour scraper les données Twitter. Voyons maintenant comment construire un crawler Twitter en 3 minutes.
Étape 1 : Entrer l’URL et configurer la pagination
Disons que nous essayons de récupérer tous les tweets d’un certain compte et dans notre exemple, nous récupérons le compte Twitter officiel d’Octoparse.
Habituellement, de nombreux sites Web sont équipés d’un bouton “page suivante” qui permet à Octoparse de cliquer et d’aller sur chaque page pour obtenir plus d’informations. Cependant, Twitter applique la technique du “défilement infini“, ce qui signifie que vous devez d’abord faire défiler la page vers le bas pour laisser Twitter charger quelques tweets supplémentaires. Comme Octoparse simule l’action humaine, son processus d’extraction final se déroulera donc comme suit : Octoparse fera défiler la page un peu, extraira les tweets affichées à l’écran, fera défiler un peu, extraira, et ainsi de suite.
Pour assurer que le robot fait défiler la page de manière répétitive, il nous faut construire une boucle de pagination par les étapes suivantes.
1) Ajouter un élément de boucle au workflow
2) Choisir le “Scroll page” (la page de défilement) comme mode de boucle
3) Configurer les paramètres de défilement selon vos besoins
Comme vous pouvez le voir ici, une boucle de pagination est affichée dans la zone de travail, ce qui signifie que nous avons construit une pagination avec succès.

Étape 2 : Construire un élément de boucle pour extraire les données
Maintenant, il est temps à extraire les tweets. Disons que nous voulons obtenir le gestionnaire, l’heure de publication, le contenu des tweets, le nombre de commentaires, de retweets et de likes.
Tout d’abord, nous allons construire une boucle d’extraction pour localiser les tweets un par un. Nous pouvons placer le curseur sur le coin du premier tweet et cliquer dessus. Lorsque le tweet entier est surligné en vert, cela signifie qu’il est sélectionné. Répétez cette action sur le deuxième tweet. Comme vous pouvez le voir, Octoparse est un robot intelligent et il a automatiquement sélectionné tous les tweets suivants pour vous. Cliquez sur “extract text of the selected elements” et vous verrez qu’une boucle d’extraction est intégrée au workflow.

Mais notre objectif est d’extraire différents champs de données dans ces colonnes distinctes. Nous devons donc sélectionner manuellement nos données cibles. C’est très facile à faire. Allez au premier tweet, cliquez sur le gestionnaire, et puis cliquez sur “extract the text of the selected element” qui se trouve sur le panneau de Tips. Répétez cette opération avant d’obtenir tous les champs de données que vous voulez. Une fois que vous avez terminé, supprimez la première colonne géante dont nous n’avons pas besoin et enregistrez le crawler. Maintenant, notre dernière étape nous attend.
Étape 3 : Modifier les paramètres de pagination et exécuter le crawler
Nous avons construit la boucle de pagination plus tôt, mais il faut encore modifier légèrement les paramètres du workflow.
Comme notre but ultime est d’assurer que Octoparse collecte les données avec succès et que nous voulons toujours obtenir les données plus rapidement, il faut trouver un équilibre entre la vitesse et le résultat. Cela nous demande à mieux définir les paramètres en tenant en compte la vitesse de chargement, l’état de votre Internet. Je vous conseille de faire des essais avant de trouver la bonne réponse. Voilà un vidéo sur comment scraper les données de Twitter qui va peut-être vous servir d’un exemple pour modifier les paramètres.
Vous pouvez maintenant exécuter le crawler sur votre appareil local pour obtenir les données, ou l’exécuter sur les serveurs Octoparse Cloud pour planifier vos exécutions et économiser vos ressources locales.
Si vous avez des questions sur le scraping de Twitter ou de tout autre site Web, n’hésitez pas à nous contacter. Nous sommes prêts à vous aider !
Pour finir, on peut discuter sur un sujet auquel s’intéressent beaucoup de personnes : est-il légal de scraper Twitter ?
D’une manière générale, il est légal d’extraire et d’exploiter les données publiques. Cependant, vous devez toujours respecter la politique de protection des droits d’auteur et la réglementation sur les données personnelles. L’utilisation des données que vous avez extraites relève de votre responsabilité et vous devez prêter attention à la législation locale. Si vous avez toujours des doutes sur la légalité, vous pouvez essayer l’API de Twitter.
L’API Twitter permet aux utilisateurs avancés qui connaissent la programmation d’avoir accès aux données Twitter comme les Tweets, les messages directs, les utilisateurs, etc.