Extracteur d'URL : Obtenir des URL à partir d'hyperliens dans une page Web
Tuesday, January 11, 2022C'est un guide rapide pour vous aider à extraire une liste d'URLs ou une liste de données sur une page web dans Excel en utilisant Octoparse. Est-ce l'extracteur d'URL que vous recherchez ? Voyons voir.
Sommaire
Extracteur d'URL / Extracteur de liste
Extraire les URL d'une page Web
Octoparse : Améliorez votre efficacité au travail
Extracteur d'URL / Extracteur de liste
Je ne suis pas sûr que vous ayez une idée de ce qu'est un roundup article, mais vous devez en avoir lu un, et très probablement vous avez lu quelque chose que vous voulez sauvegarder pour une utilisation future.
Prenons l'exemple des 100 sites de soumission d'infographies de cet article. Si je suis un spécialiste du référencement et qu'un jour je tombe sur cet article récapitulatif, ce qui me viendrait à l'esprit serait du genre :
"Regardez ça. Je peux mettre les URL de ces sites Web dans un tableau et, chaque fois que je crée une nouvelle infographie, je la soumets à ces sites. Cela pourrait définitivement aider à augmenter le trafic de mon site web ou au moins le nombre de backlinks."
Oui, c'est ce que l'extracteur d'URL peut faire. Je vais le faire avec un outil de scraping web, Octoparse, dans quelques secondes.
Extraire les URL d'une page Web
Voici un exemple simple de la façon dont vous pouvez extraire une liste d'URL d'une page Web et la transférer dans Excel. Octoparse peut extraire efficacement toutes sortes de données structurées de pages Web.
Si vous cherchez à gratter des données autres que des URL, d'autres cas seront présentés ultérieurement dans une vidéo. La vidéo sera également utile si vous trouvez ce tutoriel textuel ennuyeux.
Conditions préalables
- Télécharger Octoparse et l'installer
- S'inscrire et se connecter
- Une URL cible pour récupérer une liste d'URL
Lorsque vous saisissez l'URL cible dans Octoparse, la page web sera rendue dans le navigateur intégré. Vous pourrez la parcourir comme si vous surfiez sur Chrome. Ce qui le différencie, c'est que vous pouvez cliquer et construire un scraper pendant que vous naviguez.
Guide étape-par-étape
- Entrez l'URL cible dans Octoparse
- Cliquez sur le premier hyperlien de la liste
- Cliquez sur le deuxième hyperlien de la liste
(La liste complète des sites web d'infographie sera sélectionnée en vert.)
- Cliquer “Extract both text and URL of the link”
(Les données peuvent maintenant être visualisées dans le tableau)
- Cliquez sur "Create Workflow".
Cliquez sur le bouton bleu "Run" ci-dessus
Voilà, c'est fait. Après quelques clics, vous avez construit et exécuté votre extracteur d'URL et obtenu l'ensemble des 100 liens dans Excel.
Utiliser Auto-detection
Si vous constatez qu'après avoir cliqué sur quelques données, toute la liste de la page Web n'est pas sélectionnée automatiquement par Octoparse, vous devez peut-être trouver une autre méthode pour y parvenir.
Vous pouvez essayer la fonction d'auto-détection d'Octoparse et laisser l'algorithme d'IA sélectionner les données pour vous. Si cela ne fonctionne pas aussi bien, le site Web que vous scrapez est unique. Il n'est pas d'un type moyen. La structure du site n'est pas reconnaissable par le robot.
Dans ce cas, vous devez modifier le Xpath et localiser les données avec précision. Vous êtes curieux de savoir comment écrire un Xpath ? Vous vous lancez alors dans le web scraping.
Ne vous inquiétez pas. Supposez simplement que votre site est bien structuré et testez-le avec l'autodétection.
Peut-être que vous pouvez obtenir plus que ce que vous attendez. C'est possible. L'algorithme d'IA n'est pas omnipotent mais il est suffisamment puissant pour couvrir la plupart des types de pages web.
Dans cette vidéo, vous verrez également à quel point l'autodétection est puissante et comment elle permet d'extraire des données de voyage de Lonely Planet sans effort.
Octoparse : Améliorez votre efficacité au travail
Si vous êtes un spécialiste du marketing numérique et que vous n'avez aucune idée du web scraping, voici une bonne occasion pour vous d'apprendre quelque chose de nouveau. Je suis un spécialiste du marketing et lorsque j'utilise cet outil de scraping web, je collecte des données à un rythme que je ne pourrais jamais atteindre manuellement.
Cela signifie que :
-
Vous pouvez récupérer des articles et des nouvelles pour votre création de contenu (http://www.dataextraction.io/?p=1167).
-
Vous pouvez télécharger en masse les données de vos concurrents, pour vous tenir informé en permanence.
-
Vous pouvez extraire des ressources précieuses vers Excel et en faire un plan de travail exploitable
Et un outil de scraping web no-code/low-code est extrêmement convivial pour un spécialiste du marketing, ou quelqu'un sans connaissance du codage mais besoin de données.
Auteur: Cici
Posts les plus populaires
- 1 . Avec Octoparse Web scraping pour extraire les données d'hôtels sans coder
- 2 . Récupérer des données d'un site Web vers Excel (Tutoriel 2022)
- 3 . Top 30 des logiciels de Web scraping gratuits en 2022
- 4 . Web Scraping : Introduction et Application
- 5 . Un guide complet pour scraper les offres d'emploi sur Indeed
Posts par sujet
Téléchargez Octoparse pour démarrer le web scraping ou contactez-nous pour des autres
questions sur le web scraping !