undefined

Extraction incrémentielle - Obtenir des données mises à jour facilement (version 8)

Wednesday, June 09, 2021 6:27 PM

Les sites Web, tels que les portails d'informations ou les forums, ajoutent souvent du nouveau contenu rapidement, voire dynamiquement. Pour rester à jour avec de tels sites Web, nous vous recommandons d'utiliser l'extraction incrémentielle d'Octoparse, qui vous permet d'extraire les données mises à jour beaucoup plus efficacement en sautant les pages déjà extraites, en d'autres termes, en ne grattant que les nouvelles.

 

Quand devriez-vous utiliser l'extraction incrémentielle ?

Envisagez d'activer l'extraction incrémentielle si vous êtes tombé dans les cas suivantes:

1. Si vous voulez scraper les données mises à jour à partir d'un seul site Web d'une haute fréquente.

2. Si les nouvelles informations sont chargées dans une nouvelle page Web avec de nouvelle URL (contraire aux nouvelles informations ajoutées/mises à jour aux pages Web existantes).

Le site CNN.com. sera un exemple parfait. Imaginez si vous avez besoin d'obtenir des informations de CNN.com presque en temps réel, vous devriez planifier et exécuter la tâche/le crawler le plus fréquent possible afin que toutes les nouvelles informations publiées sur le site puissent être extrait en temps opportun. Ainsi, vous êtes tombé dans le cas(1). Évidemment, chaque article d'actualité affiché sur CNN.com va avoir une URL différente qui peut être facilement identifiée - le critère (2) est également rempli.

En supposant que vous ayez une tâche configurée pour ce travail, mais elle continue à re-gratter les articles qui ont déjà été capturés lors des exécutions précédentes, ce qui n'est pas du tout efficace. En utilisant l'extraction incrémentielle, vous pouvez facilement faire vérifier les URL en premier pour vous assurer qu'elles ne sont pas des URL extraites et ne capturer que celles qui sont vraiment nouvelles.

 

Comment l'extraction incrémentielle identifie-t-elle les "nouvelles" données ?

Extraction incrémentielle ne fonctionnera qu'à condition qu'elle a détecté les données nouvellement ajoutées et leurs nouvelles URL. Dans le processus d'extraction, Octoparse vérifiera chaque URL pour assurer il ne s'agit pas d'une URL déjà explorée. Si une URL est identifiée comme l'une des explorations précédentes, elle sera ignorée automatiquement lors de l'exécution.

 

Comment configurer l'extraction incrémentale ?

Vous pouvez facilement activer l'extraction incrémentielle en suivant les étapes ci-dessous :

1. Tout d'abord, assurez-vous que l'étape "Extraire les données" est sélectionnée dans le workflow, puis cliquez sur "Paramètres".

1.png

 

2. Cochez "Activer l'extraction incrémentielle"

2.png

3. Sélectionnez "Faire concorder l'URL entière" ou "Faire concorder une partie de l'URL"

3.png

 

Faire concorder l'URL entière

Avec cette option, Octoparse utilisera l'URL entière pour comparer avec l'URL actuelle. Même la moindre différence l'aura identifiée comme une "nouvelle" URL.

Faire concorder une partie de l'URL

Dans de nombreux cas, les URL sont composées de divers attributs, par exemple, celle d'eBay comprend les attributs "_from", "_trksid", "_nkw" et "sacat" (généralement tout ce qui précède le signe "=").

4.png

Lors de l'exécution avec l'extraction incrémentielle, Octoparse détecte automatiquement les attributs et les rend disponibles en tant que paramètres. Ayant un ou plusieurs attributs sélectionnés comme paramètres pour la correspondance, c'est comme vous "dites" à Octoparse de comparer l'URL actuelle en fonction des attributs sélectionnés, si l'un d'entre eux est identique, ignorez-le, sinon, grattez la page.

 

Tips!

1.L'extraction incrémentielle n'est disponible que pour Cloud Extraction et pour les tâches avec une seule action "Extraire des Données".


2. Si aucun paramètre n'est affiché lorsque vous choisissez "Faire concorder une partie de l'URL" et l'action "Extraire des Données", cela signifie que l'URL actuelle ne contient aucun paramètre, vous devez donc sélectionner "Faire concorder l'URL entière".


3. Quand plusieurs paramètres sont sélectionnés, Octoparse identifiera l'URL actuelle comme une "nouvelle" URL à condition aue l'un de ces paramètres est différent.

 

 Si vous avez des questions, n'hésitez pas à nous contacter.

 

Les articles récemment consultés

Nous utilisons des cookies pour améliorer votre expérience de navigation. Découvrez comment nous utilisons les cookies et comment vous pouvez les contrôler en cliquant sur les paramètres des cookies. Si vous continuez à utiliser ce site, vous consentez à notre utilisation des cookies.
Accepter Rejeter