Instagram est un site Web qui  partage de préférence les photos et les vidéos sur les réseaux sociaux. Dans ce tutoriel, vous pouvez apprendre à créer un crawler pour extraire le contenu de la publication, l'URL de la photo, etc. à partir d'un compte Instagram.

Vous pouvez aussi aller à "Modèles de Tâches" sur l'écran principal de l'Octoparse et commencer directement avec le modèle de Instagram pour gagner du temps. Avec ce modèle, il n'est pas nécessaire de configurer des tâches de scraping. Pour plus de détails, veuillez vérifier ici: Modèles de Tâchesexternal-link-symbol-1.png

0.png

 

Si vous souhaitez savoir comment créer la tâche à partir de zéro, vous pouvez continuer à lire le tutoriel suivant. Pour illustrer, nous utiliserons cette URL comme exemple: https://www.instagram.com/izkiz/

Vous devrez vous connecter à Instagram avant de consulter les affiches d'autres comptes, veuillez donc préparer un compte avant de commencer.

Commençons par les principales étapes de ce tutoriel pour démarrer votre tâche. [Télécharger la démonstration de tâche ici]

  1. "Aller à la page Web" -Ouvrir la page Web cible
  2. "Connectez-vous à votre compte Instagram
  3. "Extraire les données" - extraire les informations de base de l'affiche
  4. "Cliquer sur l'élément" - cliquer pour ouvrir la première publication
  5. "Extraire les données1" - extraire les données de publication
  6. "Pagination" - cliquer sur le bouton de la page suivante pour scraper plus de publications
  7. Démarrer l'extraction, exécuter la tâche et obtenir des données
 

 

1. "Aller à la page Web" -Ouvrir la page Web cible

  • Entrez l'URL sur la page d'accueil et cliquez sur Démarrer

1.png

 

 

2. Connectez-vous à votre compte Instagram

Instagram demande les gens à se connecter avant d'accéder aux données souhaitées. Dans ce tutoriel de cas , nous enregistrerons les cookies pour vous connecter à Instagram.

  • Passez en mode Parcourir en cliquant sur
     mceclip0.png
  • Entrez manuellement votre compte Instagram et votre mot de passe sur la page Web
  • Cliquez sur "Connexion"

login.gif

 

  • Cliquez sur mceclip2.png "Aller à la page Web"
  • Utilisez le cookie"
  • Cliquez sur "Utiliser le cookie de la page actuelle"
  • Cliquez sur "OK" pour confirmer

save_cookies.gif

 Tips!

Octoparse a les différentes façons de traiter les données derrière la connexion. Vous pouvez en savoir plus dans ce tutoriel pour ajouter des étapes de connexion au workflow: Scrapez les données derrière  la connexionexternal-link-symbol-1.png.

 

*Après avoir enregistré les cookies, n'oubliez pas de désactiver le "Mode Parcourir" pour continuer les étapes suivantes.

 

 

3.  "Extraire les données" - extraire les informations de base de l'affiche

  • Sélectionnez les informations sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes ci-dessus pour extraire toutes les données dont vous avez besoin

extract_data.gif

 

  • Renommez les champs si nécessaire3.2.png

 

 

4. "Cliquer sur l'élément" - cliquer sur ouvrir la première publication

  • Ajoutez un "Cliquer sur l'élément" au workflow

add_click_item.gif

  • Cliquez sur l'icônemceclip0.png sur le "Click Item2"
  • Cliquez mceclip1.png
  • Entrez le XPath: //*[@id="react-root"]/section/main/div/div[3]/article/div[1]/div/div[1]/div[1]/a
  • Configurer le délai d'attente AJAX entre 5-7s
  • Cliquez sur "OK" pour confirmer

add_Xpath.gif

La première publication serait ouvert automatiquement.

 

 

5. "Extraire les données1" - extraire les données de publication

  • Sélectionnez les informations de publication sur la page Web
  • Choisissez "Extraire le texte de l'élément sélectionné"
  • Répétez les étapes ci-dessus pour extraire toutes les données dont vous avez besoin

Extract_data1.gif

 

Scraping d'image - scraping de l'URL de l'image de la publication est un peu délicat.
 

  • D'abord, Sélectionnez l'image
  • Cliquez sur la flèche de gauche à la dernière balise DIV sur le panneau d’invite

5.2.png

  • Cliquez sur la première balise DIV dans la fenêtre contextuelle

5.3.png

  • Cliquez sur la flèche à droite de la dernière balise DIV et sélectionnez IMG dans la fenêtre contextuelle

5.4.png

  • Choisissez "Extraire l'URL de l'image sélectionnée"

5.5.png

 

Scraping L'heure de Publication - le texte affiché sur la page ressemble à "6d", ce qui est difficile pour nous de connaître exactement l'heure de la publication. Nous pouvons scraper la date et l'heure de publication détaillées du code source.

  • Cliquez sur ouvrir les paramètres de "Extraire les données 1"
  • Cliquez sur "..." et sélectionnez "Personnaliser le champ"
  • Choisissez "Extraire l'attribut" et sélectionnez le  "datetime" (date et heure) ou "titre" (date uniquement) dans le menu déroulant en fonction de vos besoins

post_time.gif

 

 

6. "Pagination" - cliquer sur le bouton de la page suivante pour scraper plus de publications 

  • Cliquez sur le bouton de la page suivante mceclip2.png
  • Sélectionnez "Boucle cliquez sur la page suivante" dans le panneau de Tips
  • Prolonger le délai d'attente AJAX entre 7 - 10 secondes

6.1.gif

  • Faites glisser le "Extraire les données1" dans la pagination

6.2.gif

 

 

7. Démarrer l'extraction - exécuter la tâche et obtenez des données

7.png

 

Tutorial en español:  Extraer datos de post de Instagram

También puedes leer más artículos de web scraping en el sitio web oficial