13/11/23 – Soutenance de HDR de Nadia Kabachi : Contributions aux #bigdata – traitement, gestion, sécurisation et exploitation de données dans des environnements distribués et dynamiques

Soutenance femme

Jury

Pr. Marc Bui, Université Paris 8 – EPHE, Rapporteur
Pr. Lynda Mokdad, Université Paris-Est Val de Marne, Rapporteure
Pr. Laurent Vercouter, INSA Rouen Normandie, Rapporteur
Pr. Gilles Zurfluh, Université Toulouse Capitole, Examinateur
Pr. Ghodous-Shariat Torbaghan, Université Claude Bernard Lyon 1, Examinatrice
Pr. Claude Dussart, Université Claude Bernard Lyon 1, Examinateur

Résumé

Ces dernières années, nous avons été témoins d’une révolution majeure : le Big Data, qui a introduit un nouveau paradigme dans lequel la science est dans les données. Les travaux de recherche sur les Big Data couvrent un large éventail de domaines, allant du traitement et de la gestion des données à l’analyse, à la sécurité, à la visualisation et aux aspects juridiques et éthiques. Ce mémoire d’Habilitation à Diriger des Recherches présente une synthèse non exhaustive de mes contributions dans ces domaines. Les recherches que j’ai menées et supervisées au cours de la dernière décennie se sont focalisées sur quatre axes majeurs :

le premier relatif au traitement des données massives. Dans ce cadre, nous avons proposé une approche de curation adaptative basée sur les services pour gérer les données multi-sources, multi-structurées et hétérogènes collectées en mode batch et streaming. Ce travail a été concrétisé par la conception et la réalisation d’une librairie de services pour l’extraction, l’enrichissement et l’évaluation de la qualité de données.

le deuxième axe concerne la gestion des données massives dans le contexte des systèmes décisionnels. Notre intérêt s’est porté sur les problèmes liés au partitionnement et à la distribution de grands volumes d’entrepôts de données dans un cluster de nœuds selon les principes du modèle de programmation Mapreduce. Pour répondre à ces problématiques, nous avons proposé de nouveaux schémas et stratégies de fragmentation et de placement de données dans un système distribué et dynamique tel que le Cloud Computing. Ainsi, nous avons également amélioré les performances du framework Hadoop.

– le troisième axe de notre recherche s’inscrit dans le cadre de la sécurité des données massives, entreposées dans le Cloud. L’objectif est de sécuriser le stockage des données en les rendant volontairement non intègres. Dans cette perspective, nous avons développé un algorithme de chiffrement basé sur l’altération des données. Des agents intelligents multi-profils et adaptatifs aux contextes et à l’environnement ont également été conçus, pour prendre en charge l’altération des données avant le stockage et leur désaltération lors des interrogations à des fins d’exploitation et d’analyse.

le quatrième axe de recherche se concentre sur l’exploitation des données à des fins de recommandations, d’alerte ou de prises de décisions. Nous avons apporté des contributions à travers deux approches. La première concerne la proposition d’un modèle de recommandations expliquées pour la gestion de crise. Ce modèle repose sur l’apprentissage profond, qui exploite à la fois différentes sources de données et le contexte des usages, afin de recommander des mesures de gestion adaptées à chaque situation. De plus, il utilise une représentation sémantique qui fournit des explications (XAI) adaptatives des recommandations, en fonction du contexte, du rôle et des préférences des utilisateurs. La deuxième se concentre sur le développement d’un système d’alerte basé sur des agents qui vise à traiter des données hétérogènes et multi-sources. Son objectif est de détecter des faits inhabituels ou des signaux faibles et d’alerter en conséquence. Nous avons validé ces contributions dans le domaine de la santé, en les appliquant à la recommandation de mesures sanitaires et à la détection des maladies émergentes.

Toutes nos solutions ont été développées et testées sur des données massives, synthétiques et réelles, principalement dans le domaine de la santé.

Enfin, ce mémoire met en lumière les pistes de recherche prioritaires que j’envisage d’explorer. Parmi elles, la priorité est accordée à la protection dynamique et intelligente des données « tout au long de leur cycle de vie », en veillant à préserver leur confidentialité, leur intégrité et leur disponibilité. De plus, nous nous concentrons également sur le traitement et l’exploitation de grands volumes de données en temps réel pour la maintenance prédictive, en nous appuyant sur des approches d’apprentissage continu et évolutif.

Mots clés : Big Data, curation, partitionnement et distribution de données, Cloud Computing, sécurité des données, agent adaptatif, recommandation, IA Explicable (XAI).

Abstract

In recent years, we have witnessed a major revolution : Big Data, which has introduced a new paradigm in which science resides within the data. Research on Big Data covers a wide range of areas, including data processing and management, analysis, security, visualization, as well as legal and ethical aspects.

This Habilitation thesis presents a non-exhaustive synthesis of my contributions in this field. The research I have conducted and supervised over the past decade has focused on four major axes:

  • The first one is related to the processing and curation of massive data. In this context, we have proposed an adaptive curation approach, based on services, to manage multi-source, multi-structured, and heterogeneous data collected in batch and streaming modes. This work has been materialized by the design and implementation of a service library for data extraction, enrichment, and quality evaluation.
  • The second axis concerns the management of massive data in the Business Intelligence context. Our interest has focused on the problems related to partitioning and distributing large volumes of data warehouses in a cluster of nodes according to the principles of the MapReduce programming model. To address these issues, we have proposed new schemes and strategies for data fragmentation and placement in a distributed and dynamic system such as Cloud Computing. Therefore, we have also enhanced the performance of the Hadoop framework.
  • The third axis of our research focuses on the security of massive data stored in the Cloud. The objective is to secure the storage of data by intentionally making them non-integral. In this perspective, we have developed an encryption algorithm based on data alteration. Intelligent multi-profile and adaptive agents to contexts and environment have also been designed to handle data alteration before storage and their « de-alteration » during queries for exploitation and analysis purposes.
  • The fourth axis of research focuses on the exploitation of data for recommendations, alerts, or decision-making purposes. We have made contributions through two approaches. The first one concerns the development of an alert system based on agents that aims to process heterogeneous and multi-source data. Its objective is to detect unusual facts or weak signals and alert accordingly. The second one focuses on the proposal of an explained recommendation model for crisis management. This model is based on deep learning, which exploits both different data sources and usage context to recommend management measures suitable for each situation. Additionally, it uses a semantic representation that provides adaptive explanations (XAI) of recommendations based on the context, role, and preferences of users. We have validated these contributions in the health field by applying them to the detection of emerging diseases and the recommendation of health measures.

All our solutions have been developed and tested on massive, synthetic, and real data, mainly in the field of healthcare.

Finally, this thesis highlights the priority research directions that I plan to explore. Among them, priority is given to the dynamic and intelligent protection of data ‘throughout their lifecycle’, ensuring their confidentiality, integrity, and availability. Furthermore, we also focus on the processing and exploitation of large volumes of real-time data for predictive maintenance, relying on continuous learning and Neuroevolution approaches.

Keywords: Big Data, curation, data partitioning and distribution, Cloud Computing, data security, adaptive agent, ABMS, recommendation, Explainable AI (XAI).

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *