undefined
Blog > Octoparse > Post

Extracteur d'URL : Obtenir des URL à partir d'hyperliens dans une page Web

Tuesday, January 11, 2022

C'est un guide rapide pour vous aider à extraire une liste d'URLs ou une liste de données sur une page web dans Excel en utilisant Octoparse. Est-ce l'extracteur d'URL que vous recherchez ? Voyons voir.

 

Sommaire 

Extracteur d'URL / Extracteur de liste

Extraire les URL d'une page Web

Conditions préalables

Guide étape-par-étape

Utiliser Auto-detection

Octoparse : Améliorez votre efficacité au travail

 

Extracteur d'URL / Extracteur de liste

Je ne suis pas sûr que vous ayez une idée de ce qu'est un roundup article, mais vous devez en avoir lu un, et très probablement vous avez lu quelque chose que vous voulez sauvegarder pour une utilisation future.

 

Prenons l'exemple des 100 sites de soumission d'infographies de cet article. Si je suis un spécialiste du référencement et qu'un jour je tombe sur cet article récapitulatif, ce qui me viendrait à l'esprit serait du genre :

 

"Regardez ça. Je peux mettre les URL de ces sites Web dans un tableau et, chaque fois que je crée une nouvelle infographie, je la soumets à ces sites. Cela pourrait définitivement aider à augmenter le trafic de mon site web ou au moins le nombre de backlinks."

 

Oui, c'est ce que l'extracteur d'URL peut faire. Je vais le faire avec un outil de scraping web, Octoparse, dans quelques secondes.

 

Extraire les URL d'une page Web

Voici un exemple simple de la façon dont vous pouvez extraire une liste d'URL d'une page Web et la transférer dans Excel. Octoparse peut extraire efficacement toutes sortes de données structurées de pages Web. 

 

Si vous cherchez à gratter des données autres que des URL, d'autres cas seront présentés ultérieurement dans une vidéo. La vidéo sera également utile si vous trouvez ce tutoriel textuel ennuyeux.

 

Conditions préalables

 

Lorsque vous saisissez l'URL cible dans Octoparse, la page web sera rendue dans le navigateur intégré. Vous pourrez la parcourir comme si vous surfiez sur Chrome. Ce qui le différencie, c'est que vous pouvez cliquer et construire un scraper pendant que vous naviguez.

 

 

 

Guide étape-par-étape

      • Entrez l'URL cible dans Octoparse
      • Cliquez sur le premier hyperlien de la liste
      • Cliquez sur le deuxième hyperlien de la liste

(La liste complète des sites web d'infographie sera sélectionnée en vert.)

      • Cliquer “Extract both text and URL of the link”

           (Les données peuvent maintenant être visualisées dans le tableau)

      • Cliquez sur "Create Workflow".
        Cliquez sur le bouton bleu "Run" ci-dessus

 

 

 

Voilà, c'est fait. Après quelques clics, vous avez construit et exécuté votre extracteur d'URL et obtenu l'ensemble des 100 liens dans Excel.

 

Utiliser Auto-detection

Si vous constatez qu'après avoir cliqué sur quelques données, toute la liste de la page Web n'est pas sélectionnée automatiquement par Octoparse, vous devez peut-être trouver une autre méthode pour y parvenir.

 

Vous pouvez essayer la fonction d'auto-détection d'Octoparse et laisser l'algorithme d'IA sélectionner les données pour vous. Si cela ne fonctionne pas aussi bien, le site Web que vous scrapez est unique. Il n'est pas d'un type moyen. La structure du site n'est pas reconnaissable par le robot.

   

Dans ce cas, vous devez modifier le Xpath et localiser les données avec précision. Vous êtes curieux de savoir comment écrire un Xpath ? Vous vous lancez alors dans le web scraping.

 

Ne vous inquiétez pas. Supposez simplement que votre site est bien structuré et testez-le avec l'autodétection. 

 

Peut-être que vous pouvez obtenir plus que ce que vous attendez. C'est possible. L'algorithme d'IA n'est pas omnipotent mais il est suffisamment puissant pour couvrir la plupart des types de pages web.

 

Dans cette vidéo, vous verrez également à quel point l'autodétection est puissante et comment elle permet d'extraire des données de voyage de Lonely Planet sans effort.

 

Octoparse : Améliorez votre efficacité au travail

Si vous êtes un spécialiste du marketing numérique et que vous n'avez aucune idée du web scraping, voici une bonne occasion pour vous d'apprendre quelque chose de nouveau. Je suis un spécialiste du marketing et lorsque j'utilise cet outil de scraping web, je collecte des données à un rythme que je ne pourrais jamais atteindre manuellement.

 

Cela signifie que :

 

Et un outil de scraping web no-code/low-code est extrêmement convivial pour un spécialiste du marketing, ou quelqu'un sans connaissance du codage mais besoin de données. 

 

Faites un essai gratuit.

 

Auteur: Cici

 

Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour toute autre demande
questions sur le web scraping!

Contactez-Nous Télécharger
Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter