Salle K71 – 11h
Résumé : Les workflows pour l’analyse de données massives sont complexes à mettre en ?uvre et sont sujets à de nombreuses sources d’erreurs. En effet, la diversité des données utilisées (données des réseaux sociaux, données ouvertes, IoT, etc.), la multitude d’algorithmes d’analyse de données existants (graphe, statistiques, algèbre linéaire, machine learning, etc) et le développement d’outils et paradigmes de traitement des données spécifiques (stream processing, map-reduce, GPU, etc.) induisent une forte hétérogénéité et nécessitent un écosystème flexible pour mettre en place des analyses complexes, ce qui est éloigné des outils traditionnels tels que les data warehouses.
Les workflows hybrides composent des opérations de différentes natures (chargement de données, transformation de données, exécution d’algorithmes et interprétation des résultats) entre différents systèmes ayant des paradigmes et des propriétés fonctionnelles variés. À cause de cette diversité et de la composition des opérations, les workflows hybrides entraînent une difficulté considérable pour garantir une cohérence globale du traitement et assurer que le résultat obtenu corresponde au besoin initial, que ce soit sur un plan technique ou fonctionnel. Le séminaire que je propose a pour objectif de définir les workflows hybrides et d’illustrer leurs problématiques, de présenter mes travaux de recherche visant à améliorer leur sûreté, ainsi que de dresser des pistes de travaux futurs pour contribuer à vérifier la cohérence technique et fonctionnelle des workflows hybrides.