Détection des Données à Caractère Personnel dans les Bases Multidimensionnelles
Lundi 10/02/2020, 11:00, Salle K71
Cartographier les données à caractère personnel dans la démarche de la de-identification est toujours un vrai pré-requis. Aujourd’hui avec les bases de données de grandes masses, nous sommes dans l’obligation d’automatiser l’étape de la détection dans cette démarche. Ce qui permet d’éviter les étapes chronophages, d’augmenter la précision de la détection et essentiellement permet de garantir la confidentialité.
Notre objectif donc est de proposer une approche qui permet de détecter automatiquement les données à caractère personnel (DCP) et de calculer le niveau de sensibilité de ces données dans les bases de données multidimensionnelles (BDM). Nous proposons une nouvelle approche qui se base sur trois méthodes :
- Deux méthodes détectent les DCP en analysant les valeurs de données en s’appuyant sur les expressions régulières et les bases de référence
- Une méthode qui détecte les DCP en s’appuyant sur la métadonnée (par exemple, le nom de l’attribut et celui de la dimension à laquelle il appartient). Cette dernière méthode se base sur une architecture d’une base de connaissance dynamique et entraînée. Afin d’entraîner cette base de connaissance et détecter les DCP, nous utilisons les résultats des deux premières méthodes. Ainsi, la base de connaissance est mise à jour à chaque utilisation, ce qui nous permet d’avoir une base de connaissance avancée. Une telle base de connaissance garantit une haute précision de détection.
Après la détection des données à caractère personnel dans une base en utilisant les scores d’identifications, nous utilisons les scores de sensibilité afin d’évaluer la sensibilité totale de la base multidimensionnelle. Ce score de sensibilité prend en compte la particularité des schémas multidimensionnels (l’organisation des attributs en plusieurs niveaux de granularité).