Vous pouvez facilement scraper toutes les données que vous souhaitez avec Octoparse, par exemple les principales nouvelles, les sujets d'actualité, les tendances mondiales, etc. à partir d'une variété de sites Web de médias sociaux, comme Twitter.
Récupérer les données de Twitter, vous pouvez:
- Restez à jour avec les dernières tendances dans le monde
- Découvrez des clients potentiels pour votre entreprise
- Analyser la valeur du marketing des sujets d'actualité
Vous pouvez aller à "Modèles de Tâches" sur l'écran principal de l'outil de scraping Octoparse, et commencer directement avec le Modèle Twitter prêt à l'emploi pour gagner du temps. Avec ce modèle, il n'est pas nécessaire de configurer des tâches de scraping. Pour plus de détails, veuillez consulter ici: Modèles de Tâches
Tips!
|
Si vous voulez savoir comment créer la tâche à partir de zéro, vous pouvez continuer à lire le tutoriel suivant ou consulter la vidéo ci-dessous.
Pour illustrer, prenez un exemple de scraper les nouvelles de Twitter:https://twitter.com/search?q=Latest%20News&src=tyah
Voici les principales étapes de ce tutoriel: [Télécharger le fichier de tâche ici]
- "Aller à la page Web" - ouvrir la page Web cible
- Créer un "élément en boucle" - pour extraire en boucle chaque tweet
- Créer une "Pagination" pour faire défiler la page Web
- Modifier le XPath de l'élément de boucle et sélectionner le texte à scraper
- Démarrer l'extraction - exécuter la tâche et obtenir des données
1. "Aller à la page Web" - ouvrir la page Web cible
- Entrez URL sur la page d'accueil et cliquez sur "Démarrer"
Tips! A noter que ce site Web est une page d'actualités de Twitter sans connexion. Si vous souhaitez extraire des données derrière une connexion, veuillez référer au tutoriel suivant: |
2. Créer un "élément en boucle" - pour extraire en boucle chaque tweet
- Sélectionnez le premier tweet sur la page Web (remarquez pour sélectionner tout le bloc de tweet)
- Continuez à sélectionner le deuxième tweet
- Choisissez "Extraire le texte des éléments sélectionnés"
3. Créer une "Pagination" pour faire défiler la page Web
- Choisissez "Paginer pour scraper plus de pages"
- Sélectionnez une zone vide sur la page Web
- Cliquez sur "Confirmer"
- Cliquez sur l'icône de Pagination
- Modifiez le XPath de la pagination en // main et configurez un bon "Repeats" pour quitter la boucle
- Cliquez sur l'icône d'engrenage de l'action "Cliquer pour paginer"
- Cochez "Faire défiler la page après le chargement"
- Configurez la manière de défilement comme "Faire défiler pour un écran", "Se répète" de 1s et "Attendre" de 5s
Tips!
L'action "Pagination" n'est pas de cliquer sur n'importe quel bouton "Suivant" pour charger la page suivante mais de faire défiler la page pour charger plus de tweets. Twitter ne charge que les tweets qui se trouvent sur l'écran actuel, donc chaque fois que la page défile, nous devons extraire les tweets de l'écran actuel au lieu de scraper après avoir terminé le défilement.
|
4. Modifier le XPath de l'élément de boucle et sélectionner le texte à scraper
- Cliquez sur l'icône d'engrenage de "l'élément de boucle" et entrez le XPath //article[@role="article"]/../../..
- Cliquez sur l'action "Extraire les données" et vous verrez un tweet surligné en rouge
- Sélectionnez le texte dans la zone rouge et choisissez "Extraire le texte"
5. Démarrer l'extraction - exécuter la tâche et obtenir des données
- Cliquez sur "Enregistrer"
- Cliquez sur "Démarrer" dans le côté supérieur gauche
- Sélectionnez "Exécuter sur votre appareil" pour exécuter la tâche sur votre appareil, ou sélectionnez "Exécuter la tâche sur le cloud" pour exécuter la tâche sur le Cloud (uniquement pour les utilisateurs premium)
Vous pouvez exporter les données de résultat sous divers formats, notamment EXCEL, CVS, JSON ou dans votre base de données.
Voici l'exemple de production.
Tips! Il est normal si vous obtenez des doublons car à chaque fois que la page défile, elle ne charge qu'un ou deux nouveaux tweets. |
Tutorial en español: Scrapear tweets de Twitter
También puedes leer más artículos de web scraping en el sitio web oficial
Auteur: Yina