Imputation multiple pour la gestion des données manquantes en clustering
Laboratoire ERIC : le 09/10/2023 à 10h30 (salle à définir)
Lors de notre prochain séminaire, nous aurons le plaisir d’accueillir Vincent Audigier pour une présentation intitulée : Imputation multiple pour la gestion de données manquantes en clustering.
Dans cet exposé, nous présentons comment l’imputation multiple peut être envisagée pour traiter les valeurs manquantes dans le cadre du clustering. Nous aborderons dans un premier temps la question de l’imputation des valeurs manquantes dans ce contexte et présenterons en particulier une approche d’imputation séquentielle intitulée FCS-homo. Ensuite, nous traiterons de l’étape d’analyse des tableaux imputés. Nous expliquerons notamment comment l’instabilité de chaque partition, obtenue à partir de chacun des tableaux imputés, peut être évaluée. Enfin, nous traiterons de la question de l’agrégation des différentes partitions et de leur mesure d’instabilité. La méthodologie proposée sera évaluée à l’aide d’une étude de simulation en comparaison avec les méthodes les plus récentes. Nous commençons par traiter le cas où les observations sont générées à partir d’un modèle de mélange gaussien avec des valeurs manquantes au hasard. L’étude sera ensuite complétée par des expériences basées sur différents jeux de données réel où la distribution des données est cette fois-ci inconnue. Ces premiers résultats tendent à montrer que l’imputation multiple est une méthode efficace pour traiter les données manquantes en clustering, que ce soit pour des approches basées sur des distances, telle que celle des k-means, ou pour des approches basées sur des modèles, telle que le clustering par modèle de mélange Gaussien.