undefined

Accéder à la page Web

Friday, May 28, 2021 11:41 AM

 

Si vous voulez gratter un site Web cible, vous devez d'abord obtenir son URL pour commencer. Octoparse peut simuler l'action d'humains pour ouvrir une URL spécifique. Si possible, il vaut mieux d'entrer l'URL de page Web contenant les données que vous souhaitez extraire plutôt qu'un lien général de site Web.

Si vous avez procuré l'URL d'un site Web spécifique ou une liste d'URL de page Web, commencez maintenant votre extraction!

  1. Ouvrir une seule page Web
  2. Ouvrir plusieurs URLs en boucle
  3. Settings on "Go To Web Page" Paramètres sur "Accéder à la page Web"
  4. Web Page Not Loading La page Web ne se charge pas

 

 

1. Ouvrir une seule page Web

Si vous avez une seule URL de page Web à saisir (un exemple d'URL de page de résultats de recherche d'eBay: https://www.ebay.com/sch/i.html?_from=R40&_trksid=p2380057.m570.l1313.TR12.TRC2.A0.H0.Xcharger.TRS0&_nkw=charger&_sacat=0),il y a 3 barres dans lesquelles vous pouvez l'entrer.

  • Page d'accueil d'Octoparse

Vous pouvez entrer directement l'URL dans la barre de recherche, puis appuyer sur "Démarrer" pour commencer.

mceclip1.png

  • Menu de navigation latéral

Vous pouvez trouver le bouton "+ Nouveau" dans le menu de navigation latéral. Cliquez dessus puis sélectionnez la 1ère option - Mode avancé

mceclip3.png

Vous entrerez ensuite dans la page de configuration de "Nouvelle tâche". Vous pouvez entrer l'URL manuellement dans la barre Site Web, puis appuyez sur "Enregistrer" pour commencer.

mceclip4.png

 

L'action "Aller à la Page Web" sera générée automatiquement dans le flux de travail.

mceclip0.png

  • Workflow de tâche

Lors de la configuration de tâche, si vous voulez ajouter une nouvelle URL au flux de travail, vous pouvez cliquer sur l'icône "+". (Glissez votre curseur sur les flèches dans le flux de travail et l'icône "+" apparaîtra) 

 mceclip5.png

Après avoir cliqué sur l'icône "+", vous verrez plusieurs options dans le menu déroulant. Cliquez sur le bouton "Charger plus" pour trouver l'option "Ouvrir la page" et cliquez dessus.

mceclip6.png                        mceclip7.png

Une nouvelle action de "Aller à la page Web" sera alors générée. Double-cliquez sur l'action pour ouvrir les paramètres d'action et saisir l'URL de la nouvelle page. Cliquez sur "OK" pour enregistrer les paramètres.

mceclip8.png                                            mceclip9.png

 

 

 

 

2. Ouvrir plusieurs URLs en boucle 

Si vous avez plusieurs URLs de page Web ayant une structure similaire, ce n'est pas nécessaire de créer les tâches une par une, vous pouvez saisir des URL à une seule fois.

Les méthodes pour ouvrir à la fois plusieurs URL sont pareils à une seule page Web.

 

  • Page d'accueil d'Octoparse

Si vous disposez d'une liste d'URLs, vous pouvez les copier directement (à partir d'un fichier Excel par exemple) et les coller dans la barre de recherche d'Octoparse. Les URLs valides seront détectées automatiquement. Cliquez ensuite sur le bouton "Démarrer" pour commencer.

mceclip10.png

Une boîte "URL en boucle" comprenant toutes les URLs que vous avez saisies sera générée. Vous pouvez double-cliquer sur la case "URL en boucle" pour vérifier ou modifier les URLs dans l'élément de boucle.

mceclip11.png                     mceclip12.png

  • Le Menu de navigation latéral et 4 manières pour saisir les URLs

Vous pouvez trouver le bouton "+ Nouveau" dans le menu de navigation latéral. Cliquez dessus, puis sélectionnez la 1ère option - Mode avancé.

mceclip3.png

Ensuite, la page de configuration "Nouvelle tâche" sera ouverte. Il y a 4 façons pour saisir les URLs, choisissez en fonction de vos besoins. Apprenez les détails dans ce titoriel: Entrer les URLs par lots

Si vous voulez saisir les URLs manuellement, n'oubliez pas de n placer qu'une seule URL par ligne, ou vous pouvez copier directement une liste d'URL à partir d'une feuille Excel .

mceclip13.png

  • Workflow de Tâches

Si vous voulez ajouter une nouvelle liste d'URL au flux de travail, vous pouvez cliquer sur l'icône "+" pour ajouter quelques étapes nécessaires.

 mceclip5.png

Tout d'abord, vous devez ajouter un élément "Boucle" dans le menu déroulant. Puis, double-cliquez dessus pour saisir les URLs comme vous voulez.

 

          mceclip16.png       

Accédez à "Élément de boucle", sélectionnez "Liste d'URL" comme mode de boucle et cliquez surmceclip1.png pour entrer les URLs.

 mceclip17.png

Après avoir enregistré les paramètres, un "Élément de boucle" d' "Aller à la page Web" sera généré.

mceclip19.png

 

3. Paramètres d' "Accéder à la page Web"

Double-cliquez sur "Aller à la page Web" dans le flux de travail, et vous pourriez ajuster ensuite les paramètres de cette étape en fonction de l'état du site Web et de votre connexion Internet.

  • Paramètres généraux et "Avant le rendu de la page"

Vous pouvez ajuster le "Timeout" si la page Web prend trop de temps pour se charger. Vous pouvez aussi modifier l'URL de la page Web dans la barre d'URL.

Ne cochez "Charger les URLs dans la boucle" que lorsque vous voulez ouvrir des URL à partir de la liste de boucles.

Dans la section "Avant le rendu de la page", vous pouvez configurer un temps d'attente et un cookie pour cette étape. Cochez "Attendre avant l'action" pour contrôler les intervalles d'ouverture entre chaque URL. Quant aux paramètres de cookie, il est fréquemment utilisé lorsque la page Web nécessite une connexion pour accéder.

 mceclip20.png

  •  "Après le chargement de la page"

mceclip23.png

Le paramètre le plus utilisé est celui de défilement de page. Vous pouvez le cocher si la page nécessite un défilement vers le bas pour charger le contenu.

Tout d'abord, vous devez choisir le mode de défilement, "vers le bas de la page" ou "pour un écran".

Ensuite, configurez "Répétitions" (combien de temps de défilement voulez-vous avoir) et "Temps d'attente" (temps d'intervalle entre chaque défilement pour laisser un certain temps au chargement de nouvelles données après le défilement).

  • "Retry"

mceclip24.png

Vous pouvez activer l'action "Réessayer" pour charger à nouveau la page si la page actuelle contient ou ne contient pas le texte / l'élément souhaité.

 

 

4. La page Web n'est pas chargée

Il arrive parfois q'une page Web n'est pas chargée correctement dans le navigateur intégré d'Octoparse. Vous ne voyez qu'une page vierge.

 

Dans ce cas-là, vous pouvez cliquer sur l'icône des paramètres dans le coin supérieur gauche pour modifier les paramètres de la tâche.

mceclip25.png

Vous pouvez accéder à "Browser Ver." sous "Paramètres d'exécution" pour changer un autre navigateur.

mceclip28.png

Il y a de nombreuses options sous "Browser Ver.". Choisissez-en un et cliquez sur "Enregistrer" pour revenir à la page précédente.

mceclip27.png

Ensuite, cliquez sur l'icône "Recharger la page Web" pour actualiser la page et vérifier si la page Web peut être bien chargée.

mceclip29.png

 

 

Si vous avez des questions, n'hésitez pas à soumettre une demande ici. Notre équipe d'assistance vous répondra plus tard.

 

Artículo en español:  Ir a la página web

También puedes leer artículos de web scraping en sitio web oficial

 

Auteur: Vanny

Editeur: Yina

 

 

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter