undefined

Scraper des donnees de l'IFrame

Thursday, April 07, 2022 12:11 PM

Qu'est-ce qu'un IFrame ?


Un IFrame (Inline Frame) est un document HTML qui est intégré à un autre document HTML sur la page Web. Il vous permet d'inclure un élément de contenu provenant de sources externes. 

Codage, chaque Iframe comprend la balise HTML <iframe> ainsi qu'un attribut source src qui indique l'emplacement du contenu que vous souhaitez intégrer.

<iframe src="URL"></iframe>

Cependant les Iframes sont utiles pour maintenir la séparation entre un site et le contenu externe, elles sont devenues des obstacles pour les crawlers de sites Web.

 

Comment scraper des données d'un IFrame avec Octoparse ?


Le navigateur intégré d'Octoparse détecte automatiquement IFrame. Il vous suffit donc de sélectionner l'élément dans l'IFrame et de le scrape normalement - comme s'il n'y avait rien d'appelé IFrame sur Internet !

 

 

Lorsque vous avez extrait des données dans l'iFrame, vérifiez le XPath de son élément généré automatiquement pour voir si Octoparse l'a déjà détecté.

 

 

 

Cependant, notez qu'Octoparse localise les éléments dans les IFrames avec la combinaison de IFrame XPath et Matching XPath. Si le XPath généré automatiquement n'est pas précis, vous devrez réécrire les deux expressions XPath.

 

 Si Octoparse ne reconnaît pas automatiquement l'IFrame ?

 


Il existe deux solutions de contournement pour ce genre de situation.

 

  1. Scrapez n'importe quel élément de la page en tant qu'espace réservé au champ de données, et réécrivez son XPath pour localiser l'élément IFrame à la place. N'oubliez pas de saisir à la fois le XPath IFrame et le XPath correspondant lorsque vous modifiez le XPath.

  2. Récupérez l'adresse du lien IFrame dans le code source et utilisez-la comme URL de départ pour une nouvelle tâche.

 

  • Appuyez sur F12, ou Ctrl + Shift + I pour ouvrir les Outils du Développeur dans Chrome et localisez le code source de l'élément IFrame. S'il y a plusieurs liens IFrame dans le code source, assurez-vous que vous traitez avec celui qui contient les données dont vous avez besoin.
  • Faites un clic droit sur la balise iframe src et copiez l'adresse du lien pour obtenir l'URL.

 

 

  • Utilisez l'URL pour construire une tâche, c'est aussi simple que de gratter une page normale sans IFrame.

 

Est-ce qu'Octoparse peut gratter de l'IFrame dans l'IFrame ?

 

Non, Octoparse ne peut pas scraper de l'IFrame dans l'IFrame. Cependant, vous pouvez toujours obtenir le lien IFrame sur le code source dans un navigateur, puis l'utiliser comme URL de départ pour construire une nouvelle tâche.

 

Si vous avez encore des questions, vous pouvez soumettre une demande ici. Notre équipe d'assistance vous répondra le plus vite possible.

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter