15/12/22 – Soutenance de thèse de Yuzhao Yang : Intégration automatique de données tabulaires dans des entrepôts de données multidimensionnels #datawarehouses #bi4people

Soutenance homme

La soutenance aura lieu le jeudi 15 décembre à 9h00 dans la salle MF105 à l’Université Toulouse 1 Capitole, campus Manufacture des tabacs. Il sera possible de la suivre avec le lien Zoom suivant: 
https://ut-capitole-fr.zoom.us/j/93536062443?pwd=TzduSVR3dXVUd0NoVFhRZSt3TmJOQT09

Jury :
– Agnès FRONT, Professeure, Université Grenoble Alpes, Rapportrice
– Maguelonne TEISSEIRE, Professeure, INRAE, Rapportrice
– Ladjel BELLATRECHE, Professeur, ENSMA, Examinateur
– Olivier TESTE, Professeur, Université Toulouse 2 Jean Jaurès, Examinateur
– Jérôme DARMONT, Professeur, Université Lumière Lyon 2, Co-directeur
– Franck RAVAT, Professeur, Université Toulouse 1 Capitole, Directeur

Résumé : La Business Intelligence (BI) joue un rôle important dans les entreprises pour soutenir les processus de prise de décision. Aujourd’hui, les petites entreprises, les organisations ou même les particuliers peuvent exploiter de nombreuses données. Cependant, le manque d’experts les empêche de mener à bien des projets de BI. Il est donc nécessaire d’automatiser le processus de conception et d’implémentation de systèmes de BI afin de le rendre accessible à tous. Dans les architectures BI, les données sont intégrées dans des entrepôts de données (EDs) généralement modélisés de manière multidimensionnelle. De plus, les données tabulaires sont largement répandues dans les petites entreprises, les organisations et dans le monde des données ouvertes. Par conséquent, nous avons l’intention d’automatiser la conception d’EDs multidimensionnels à partir de données tabulaires sans connaissance à priori des schémas.

La conception automatique d’EDs à partir de données tabulaires nécessite la détection de différents composants multidimensionnels (faits, dimensions, hiérarchies…). En cas de sources multiples, plusieurs EDs peuvent être générés. S’ils partagent des informations communes, il est nécessaire de les fusionner en un seul ED intégré. Pendant la fusion d’EDs, l’imputation de données manquantes doit être effectuée pour permettre une analyse de données de meilleure qualité. Par conséquent, nous proposons une solution composée de trois parties : (i) la conception automatique d’EDs, (ii) la fusion automatique d’EDs et (iii) l’imputation de données multidimensionnelles.

La conception automatique d’EDs à partir de données tabulaires comprend la détection de mesure et la détection de dimension pour définir respectivement le fait et les dimensions. Pour la détection de mesures, nous proposons une approche basée sur l’apprentissage automatique qui extrait trois catégories de caractéristiques. La détection de dimensions comprend la détection de hiérarchies (basée sur des dépendances fonctionnelles) et la distinction des paramètres et des attributs faibles (basée sur des règles syntaxiques et sémantiques). Nous avons réalisé des expérimentations pour valider que notre approche est capable de détecter les mesures et les différents éléments de dimension avec une efficacité et une efficience élevées.

Concernant la fusion automatique d’EDs, nous proposons un processus basé sur les schémas et les instances, composé de la fusion de niveaux, la fusion de hiérarchies, la fusion de dimensions et la fusion de schémas en étoile. Les expérimentations ont permis de valider notre solution de fusion d’EDs.

Enfin, pour traiter les données manquantes multidimensionnelles, nous proposons une approche d’imputation hybride appelée Hie-OLAPKNN qui combine une imputation hiérarchique (Hie) et une imputation basée sur les K-voisins les plus proches (OLAPKNN). L’imputation hiérarchique est basée sur les dépendances fonctionnelles entre les niveaux hiérarchiques. OLAPKNN applique une distance d’instances de dimension et tient compte des contraintes de dépendance hiérarchique. Nos expérimentations montrent que Hie-OLAPKNN surpasse les autres approches en termes d’efficacité, d’efficience et de respect des contraintes hiérarchiques.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *