Toutes les collections
Utiliser Octoparse
Scraper et télécharger des fichiers sur des sites web
Scraper et télécharger des fichiers sur des sites web

Dans ce tutoriel, nous allons vous montrer comment télécharger des fichiers et des images avec Octoparse.

Mis à jour il y a plus d’une semaine

La nouvelle version du logiciel apporte la fonction de téléchargement de fichiers et d'images sur des appareils locaux, de sorte que nous pouvons ouvrir directement les fichiers et les images des dossiers locaux. Les téléchargements de documents aux formats jpg, png, gif, doc, pdf, ppt, txt, xls et zip sont actuellement possibles.

Dans ce tutoriel, nous allons vous montrer comment télécharger des fichiers et des images avec Octoparse. Veuillez noter que les téléchargements de fichiers ne peuvent actuellement être utilisés qu'en local.

URL d'exemple pour les configurations de téléchargement de fichiers :

URL d'exemple pour les configurations de téléchargement d'images : https://www.rappi.com.mx/tiendas/tipo/market

lien 2


1. Télécharger les fichiers

  • Choisissez un document que vous souhaitez télécharger et l'élément sélectionné deviendra vert, les éléments similaires deviendront rouges.

télécharger

  • Cliquez sur Choisir les éléments similaires dans le panneau de conseils - Tous les documents seront identifiés et sélectionnés et passeront au vert.

  • Choisir "Texte+Lien"

  • Cliquer sur les trois petits points au champ de lien, et sélectionner "Télécharger les fichiers"

Remarque : en supprimant un champ dont le nom contient une icône de dossier, vous supprimez les paramètres de téléchargement.

remarque
  • Nommez les fichiers téléchargés

Il existe quatre façons de nommer les fichiers téléchargés. Vous pouvez voir les options sur les Conseils.

  • MD5 Hash Value : Utilisez la valeur MD5 pour nommer les fichiers

  • Original File Name : Nom du fichier original par défaut

  • Download Complete Time : Utilisez le temps de téléchargement complet pour nommer les fichiers

  • Data Field Value : Utiliser la valeur du champ de données pour nommer les fichiers

nomination

Si le nom du fichier existe déjà dans le dossier, il y a également trois façons de gérer la situation.

solution
  • Sauter le nouveau fichier : Sauter le fichier téléchargé actuel

  • Remplacer le fichier existant : Remplacer le fichier existant par le nouveau fichier téléchargé

  • Renommer le nouveau fichier : Renommer le nouveau fichier en ajoutant un (1) à la fin du nom du fichier


2. Télécharger les images

Le téléchargement d'images vers des dossiers locaux partage la même logique que le téléchargement de fichiers.

  • Cliquer sur une image

  • Sélectionner Choisir les éléments similaires

  • Cliquer respectivement sur Image URL et Fichiers d'image - Pour extraire les liens ainsi que télécharger les images dans des dossiers locaux

A Noter :

Seules les URL complètes avec "https://" peuvent être téléchargées directement avec Octoparse. Si la valeur de l'URL récupérée n'est qu'une partie du lien de téléchargement complet, vous pouvez utiliser la fonction d'Ajouter un préfixe Add ou d'autres fonctions d'affinage des données dans la fonction Nettoyer les données pour obtenir les liens de téléchargement valides.


3. Paramètres de téléchargement

3.1 Paramètres de téléchargement de fichiers

  • Cliquez sur l'icône de la flèche à côté du champ de données

  • Vous pouvez renommer les fichiers téléchargés, décider le mode de séparation d'URL et définir des URL à sauter pour les fichiers téléchargés ici.

3.2 Paramètres de location de téléchargement

  • Cliquez sur l'icône des paramètres de la tâche à droite en haut pour ouvrir les paramètres de la tâche

  • Cliquez sur le bouton Parcourir - Choisissez un dossier local pour les fichiers et les images téléchargés.

  • Choisissez un mode de notification quand une exécution locale commence

  • Cliquez sur Sauvegarder pour sauvegarder toutes les modifications

Avez-vous trouvé la réponse à votre question ?