Ajoutez l'URL d'origine (avant la redirection) avec les données extraites
Tuesday, September 06, 2022 3:15 PMVous êtes en train de consulter un guide de tutoriel pour la dernière version d'Octoparse. Si vous utilisez une version plus ancienne d'Octoparse, nous vous recommandons vivement de la mettre à jour car elle est plus rapide, plus facile et plus robuste ! Téléchargez et mettez à jour votre version ici. Si vous ne l'avez pas encore fait !
Si vous récupérez une liste d'URL, vous voudrez peut-être obtenir l'URL originale en entrée comme champ avec vos données cibles afin de les comparer pour voir s'il existe des URL qui n'ont pas été récupérées.
Toutefois, il est possible que les URL soient changées après l'ouverture (par exemple, certains paramètres d'URL peuvent changer) ou qu'elles soient redirigées vers une autre URL totalement différente. La nouvelle fonctionnalité d'ajout d'une URL d'entrée originale dans Octoparse 8.5 résout parfaitement ce dilemme ! Voyons comment utiliser cette fonction.
Quelle est l'URL originale qu'Octoparse ajoute comme champ ?
- Une seule URL. Si vous démarrez la tâche avec une seule URL, vous obtiendrez l'URL que vous avez placée dans l'action "Aller à la page Web".
- Listes d'URL dans l'élément de boucle. Si vous extrayez des données d'une liste d'URL, vous obtiendrez la liste d'URL que vous avez entrée dans les URL de boucle en utilisant l'URL d'entrée d'origine
Comment ajouter url original?
Prenons ce lien comme exemple : https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1
Ouvrez ce lien dans votre navigateur et vous remarquerez que l'URL est redirigée vers une autre : https://en.azimutyachts.com/
ÉTAPE 1. Entrez votre ou vos URL dans Octoparse pour commencer une tâche
ÉTAPE 2. Allez à la section Aperçu des données et sélectionnez l'URL d'entrée originale dans Ajouter un champ personnalisé
Vous verrez qu'un champ nommé Original_URL a été créé en tant que champ et que sa valeur est https://www.yachtall.com/en/fwd/go-to-builder?id=75&js=1 et non https://en.azimutyachts.com/