Le concept de lac de données (data lake) a été introduit comme une alternative aux entrepôts et magasins de données pour le stockage et l’analyse des mégadonnées (big data). Les lacs de données sont le plus souvent considérés comme des bacs à sable au sein desquels les data scientists mènent des travaux exploratoires. En revanche, les laboratoires ERIC (Université de Lyon) et IRIT (Université de Toulouse) travaillent de concert à rendre les lacs de données accessibles à un plus large panel d’acteurs, par exemple des business users au fait des outils décisionnels ou des chercheur∙es. Il s’agit ainsi d’industrialiser les processus de science des données pour étayer le nouveau concept de business intelligence and analytics (BI&A). Dans ce contexte, les objectifs du stage sont :
- sur la base de l’état de l’art : de définir une architecture fonctionnelle de référence pour les lacs de données et de recenser les grands scénarios d’utilisation des lacs de données ;
- de proposer et de tester des architectures techniques (piles technologiques) alternatives relatives à ces scénarios ;
- de développer un outil de génération automatique d’architectures physiques répondant aux différents scénarios.