« Octoparse a fait un excellent travail, non seulement pour le scraping de données, mais aussi dans sa compréhension des projets et des besoins du centre. Les données collectées en ligne n’auraient servi à rien si Octoparse n’avait pas saisi l’objectif global du projet. »
— Jinho Jung, associé de recherche, Center for Food Demand Analysis and Sustainability, Université Purdue

À propos du client
Le Center for Food Demand Analysis and Sustainability (CFDAS) est un centre de recherche rattaché à la faculté d’agriculture de l’Université Purdue. Sa mission : améliorer la circulation des données sur les consommateurs et les marchés alimentaires — en aidant les consommateurs à faire des choix plus éclairés, et en permettant aux entreprises agricoles, aux décideurs et aux agriculteurs d’améliorer le système alimentaire.
Le défi
Le CFDAS devait collecter chaque jour des données sur plus de 2 millions de produits d’épicerie auprès de 20 chaînes de supermarchés en ligne. Cela exigeait des serveurs plus rapides, un stockage plus important et un transfert de données en temps réel à grande échelle. Le centre devait aussi agréger l’ensemble des données dans un tableau de bord interactif, afin d’offrir au public une surveillance quotidienne des prix alimentaires, par région et par catégorie de produits.
Le faire manuellement, ou avec des scripts d’extraction personnalisés et fragiles, n’était pas envisageable. Il fallait une solution fiable et évolutive, capable de suivre le rythme des exigences de la recherche.
La solution
Le CFDAS s’est associé à Octoparse pour prendre en charge ses besoins quotidiens d’extraction de données à grande échelle. Octoparse extrait désormais chaque jour les données de 20 chaînes d’épicerie en ligne, réparties sur 5 catégories de produits et environ 342 codes postaux — soit jusqu’à 2,3 millions de produits par jour. Le dépôt de données du centre est directement connecté au stockage d’Octoparse, ce qui permet un transfert en temps réel, sans délai.
Pourquoi choisir Octoparse
Des serveurs plus rapides et un stockage accru
Le centre devait collecter quotidiennement les données de 20 chaînes d’épicerie en ligne, couvrant 5 catégories de produits et environ 342 codes postaux — soit jusqu’à 2,3 millions de produits par jour. L’infrastructure d’Octoparse a absorbé cette envergure sans le moindre compromis.
Des données détaillées et bien structurées
Octoparse a mis au point un programme d’extraction dédié aux informations produit détaillées : articles, catégories et zones géographiques. Grâce à ces données, le tableau de bord du centre devient un véritable outil d’aide à la décision : il aide les producteurs, les entreprises agricoles et les décideurs à faire des choix qui améliorent le système alimentaire, tout en orientant la recherche sur la nutrition et l’innovation agroalimentaire.
Une gestion quotidienne des données plus efficace
Octoparse relie son stockage au dépôt de données du centre pour transférer les données extraites chaque jour, ce qui permet au centre de gérer l’information plus rapidement, sans aucune intervention manuelle.
Perspectives d’avenir
Le CFDAS fournit désormais aux entreprises agricoles, aux acteurs de l’agtech, aux agriculteurs et aux décideurs des données et des analyses accessibles et actualisées : prix, production et approvisionnement alimentaires, mais aussi dépenses et préférences des consommateurs. En exploitant le web scraping à grande échelle, le centre contribue à bâtir un système alimentaire plus performant pour tous.



