19/05/25 – Séminaire de Thomas Constum, post-doc au LITIS (Université de Rouen) : Extraction d’informations de bout en bout dans des documents manuscrits #HumanitéNumériques

Séminaire/congrès/conférence

Titre : Extraction d’informations de bout en bout dans des documents manuscrits : vers une compréhension des actes de mariage de Paris de 1880 à 1940

Résumé : L’extraction d’informations à partir de documents manuscrits implique traditionnellement trois étapes distinctes : l’analyse de la mise en page du document, la reconnaissance de texte manuscrit et la reconnaissance d’entités nommées. Des approches récentes ont tenté d’intégrer ces étapes en un processus unique à l’aide d’architectures entièrement end-to-end. Malgré cela, ces approches intégrées n’ont pas encore égalé les performances des modèles de langage lorsqu’ils sont appliqués à l’extraction d’informations dans des textes numériques.

Dans cette présentation, nous présentons DANIEL (Document Attention Network for Information Extraction and Labelling), une architecture entièrement end-to-end qui intègre un modèle de langage et est conçue pour une compréhension complète des documents manuscrits. DANIEL réalise la reconnaissance de mise en page, la reconnaissance de texte manuscrit et la reconnaissance d’entités nommées sur des documents pleine page. De plus, il peut simultanément apprendre à travers plusieurs langues, mises en page et tâches.

Notre objectif avec cette architecture est d’établir dans le cadre du projet EXO-POPP une base de données complète comprenant 300 000 actes de mariage de Paris et de ses banlieues, couvrant les années 1880 à 1940, qui sont conservés dans plus de 130 000 scans de doubles pages. Chaque acte de mariage peut comprendre jusqu’à 118 types d’informations distincts qui nécessitent une extraction à partir du texte brut. Dans cet présentation, nous mettons en avant les capacités d’extraction d’informations atteintes par notre architecture en utilisant le nouveau jeu de données M-POPP, qui est accessible à la communauté de recherche. Ce jeu de données fournit des annotations pour la reconnaissance de texte en pleine page et l’extraction d’informations à travers des documents manuscrits et imprimés. »

Leave a Reply

Your email address will not be published. Required fields are marked *