La Compréhension Automatique du Langage pour les Sciences Humaines et Sociales: le cas de la réinterprétation d’un fond d?archives sur l’autogestion
18/10/21, 11:00, K71
Dans le cadre de l’ANR « ARCHIVAL – Valorisation d’archives multimédia », l’équipe TALEP du laboratoire LIS-Marseille collabore avec les équipes de la Chaire UNESCO ITEN, FMSH, OrangeLab, et IRISA, composées de chercheurs issus de l’informatique et des SHS. Le projet vise à imaginer de nouveaux moyens de valoriser des fonds d’archives en dépassant les limites des moteurs de recherche usuels. Ces derniers n’offrent que très peu de possibilité de questionner un ensemble de documents, que ce soit au niveau de la formulation des requêtes ou de l’exploration des résultats, et ne permettent que très rarement d’articuler les différents contenu
Dans cette présentation, je décris les premiers travaux opérés au sein de notre équipe sur le corpus « Autogestion » de la FMSH. En premier lieu, nous explorerons la possibilité d’utiliser des données externes (Wikipédia) afin de donner une structure à ce corpus, à travers une tâche se situant entre la reconnaissance d’entités nommées et la prédiction de liens dans les graphes. Ensuite, nous verrons comment nous entraînons un modèle de questions/réponses en générant de manière automatique, à partir d’annotations sémantiques, un jeu d’apprentissage. L’objectif à terme est de pouvoir interroger notre corpus en identifiant, pour une même question, plusieurs réponses aux opinions divergentes.