23/05/22 – Soutenance de thèse d’Étienne Scholly : De la modélisation des métadonnées à la conception d’un lac de données. Application à l’habitat social. #datalakes

La soutenance aura lieu le lundi 23 mai à 14h30, dans la salle de conférence de l’IUT (bâtiment 1) de l’Université Lumière Lyon 2, sur le campus Portes des Alpes à Bron. Il y aura aussi un lien de visioconférence pour les personnes qui ne pourraient pas être présentes physiquement. La soutenance sera suivie d’un pot.

Résumé de la thèse

Les années 2010 ont vu émerger le concept de lac de données (data lake) comme nouvelle approche pour le stockage et l’exploitation de mégadonnées (big data), en alternative aux entrepôts de données (data warehouses). Un lac de données se définit par deux propriétés principales : la variété des données qu’il est capable d’ingérer, et une approche où le schéma des données n’est défini qu’à leur interrogation (schema-on-read). Ces propriétés font qu’un lac de données est un système souple et adaptatif, mais nécessite en contrepartie de disposer d’un système de métadonnées efficace. En l’absence d’un schéma fixe de données, les métadonnées sont en effet essentielles pour supporter tous les usages et empêcher ainsi le lac de se transformer en marécage de données (data swamp), c’est-à-dire un lac de données inutilisable.

Alors que la littérature converge sur la nécessité de disposer d’un système de métadonnées efficace au sein d’un lac de données, il existe toutefois plusieurs approches pour le mettre en place. Plusieurs propositions ont déjà été formulées pour constituer un système de métadonnées, mais beaucoup de ces propositions s’avèrent être des « boites noires » difficilement réutilisables car trop peu détaillées, tandis que d’autres, plus explicites, manquent souvent de généricité pour s’adapter à des cas d’usages différents. Aussi, la mise en œuvre concrète d’un lac de données soulève son lot de problématiques, et à nouveau, plusieurs approches ont été proposées pour définir les composants majeurs d’un lac de données. Toutefois, une étude comparative des architectures fonctionnelles des lacs de données montre que ces propositions ont tendance à trop compartimenter les données du lac pour répondre à un besoin métier spécifique. Enfin, la profusion d’outils et de technologies permettant d’implémenter un lac de données vient ajouter de la confusion autour d’un concept récent et dont la définition n’est pas encore totalement consensuelle.

C’est pourquoi nous proposons dans cette thèse plusieurs contributions pour la conception, la modélisation et l’implémentation d’un lac de données et de son système de métadonnées. Nos premières contributions portent sur la modélisation des métadonnées, puisque les propositions de la littérature dans ce domaine s’avèrent manquer de généricité et ne pas être à même de prendre en charge tous types de données ou différents cas de figures importants. C’est pourquoi nous proposons un modèle de métadonnées baptisé MEDAL, que nous avons par la suite, à la lumière de travaux plus récents, fait évoluer en un métamodèle de métadonnées nommé goldMEDAL, qui se distingue des autres propositions par un niveau d’abstraction plus élevé.

En plus de la modélisation des métadonnées, nous nous sommes aussi penchés sur la problématique de la mise en œuvre effective d’un lac de données. A ce titre, nous proposons HOUDAL, une implémentation de lac de données dédié à l’habitat social, un contexte métier qui s’inscrit dans le cadre de la thèse CIFRE, où l’entreprise BIAL-X travaille en étroite collaboration avec plusieurs bailleurs sociaux. HOUDAL se compose d’un système de métadonnées basé sur l’instanciation du métamodèle goldMEDAL, ainsi que d’une interface web avec laquelle l’utilisateur interagit pour accéder au lac de données, i.e. aux données et aux métadonnées. Pour aider l’utilisateur lors de son utilisation de HOUDAL, nous proposons aussi QSTR, un assistant à la création de métadonnées pour les données structurées. QSTR se situe dans la couche d’ingestion de HOUDAL et aide l’utilisateur à décrire de manière efficiente les données structurées, en particulier dans l’optique de décrire des évolutions de schéma qui pourraient subvenir lors de l’ajout de nouvelles occurrences de données au sein du lac.

Laisser un commentaire