Scraper et télécharger des fichiers sur des sites web
Monday, July 18, 2022 11:40 AMLa nouvelle version introduit la fonction de téléchargement de fichiers et d'images sur des appareils locaux, de sorte que nous pouvons ouvrir directement les fichiers et les images des dossiers locaux. Les téléchargements de documents aux formats jpg, png, gif, doc, pdf, ppt, txt, xls et zip sont actuellement possibles.
Dans ce tutoriel, nous allons vous montrer comment télécharger des fichiers et des images avec Octoparse. Veuillez noter que les téléchargements de fichiers ne peuvent actuellement être utilisés qu'en local.
Exemple d'URL pour les configurations du fichier téléchargé : https://www.cclcomponents.com/fronius-gen24-plus-primo-3kw-hybrid-inverter
L'exemple d'URL pour les paramètres de l'image téléchargée est : https://www.rappi.com.mx/tiendas/tipo/market
1.Télécharger les fichiers
- Cliquez sur l'un des boutons de téléchargement - Choisissez un document que vous souhaitez télécharger et l'élément sélectionné deviendra vert, les éléments similaires deviendront rouges.
- Cliquez sur Sélectionner tout dans la boîte de conseils - Tous les documents seront identifiés et sélectionnés et passeront au vert.
- Cliquez sur Extraire les URL des documents et télécharger les fichiers liés - pour extraire les liens et télécharger les fichiers vers des dossiers locaux
Le champ de données ressemblera à celui ci-dessous, vous pouvez cliquer sur l'icône ... dans le coin supérieur droit pour modifier les champs de données.
Remarque : la suppression du champ dont le nom contient une icône de dossier annule les paramètres de téléchargement.
- Nommez les fichiers téléchargés
Il existe cinq façons de nommer les fichiers téléchargés. Vous pouvez voir les options sur les Conseils.
- MD5 Hash Value : Utilisez la valeur MD5 pour nommer les fichiers
- Original File Name : Nom du fichier original par défaut
- Download Complete Time : Utilisez le temps de téléchargement complet pour nommer les fichiers
- Data Field Value : Utiliser la valeur du champ de données pour nommer les fichiers
Si le nom du fichier existe déjà dans le dossier, il y a également trois façons de gérer la situation.
- Sauter le nouveau fichier : Sauter le fichier téléchargé actuel
- Remplacer le fichier existant : Remplacer le fichier existant par le nouveau fichier téléchargé
- Renommer le nouveau fichier : Renommer le nouveau fichier en ajoutant un (1) à la fin du nom du fichier
2.Télécharger les images
Le téléchargement d'images vers des dossiers locaux partage la même logique que les fichiers téléchargés.
- Cliquez sur une image - Choisissez une image
- Cliquez sur Select All dans la boîte de conseils - Sélectionnez toutes les images
- Cliquer sur Extract image URLs and download linked files- Pour extraire les liens ainsi que télécharger les images dans des dossiers locaux
3.Télécharger les paramètres
- Cliquez sur l'icône de la flèche à côté du champ de données
- Vous pouvez renommer les fichiers téléchargés, séparer plusieurs URL et saisir des URL à ignorer pour les fichiers téléchargés ici.
Télécharger les paramètres de localisation
- Cliquez sur l'icône des paramètres de la tâche
dans le coin supérieur droit des paramètres de la tâche.
- Cliquez sur le bouton browse - Choisissez un dossier local pour les fichiers et les images téléchargés.
- Choisissez un mode pour les paramètres Quand une exécution locale commence
- Cliquez sur Save - Sauvegarder toutes les modifications
Si vous avez d'autres questions, soumettez une demande ici.