7/7/20 – Des SHS au traitement de données

GdR CNRS MaDICS

Mardi 07-07-2020 de 14h00-16h00 (en visioconférence)

Le nouvel atelier Humanités numériques du GDR MaDICS (Masses de Données, Informations et Connaissances en Sciences) vise à contribuer au rapprochement des communautés de la science des données de celles des sciences humaines et sociales (SHS) impliquées dans les Humanités numériques. Il a pour objectif d’incorporer des éléments méthodologiques utilisés en SHS (par exemple, processus de constitution de corpus et de mise en relation de données, méthodologies d’analyse de corpus…) dans les processus informatiques (par exemple, intégration des données, navigation et visualisation des données…), et vice versa.

Pour engager le dialogue entre ces communautés scientifiques, l’atelier MADICS-HN organisera une première conversation le mardi 7 juillet 2020 en visioconférence dans le cadre du symposium annuel du GDR MaDICS. Cette première table ronde visera l’échange entre les communautés de la science des données et celles des sciences humaines et sociales autour de la notion de « donnée ».

Problématique

Depuis que les SHS intègrent des approches informatiques à leurs travaux, elles constituent des données selon des protocoles aussi standardisés et ouverts que possible afin que les données puissent être utilisées par les machines. Toutefois, les SHS gardent des réflexes dans la constitution de celles-ci qui visent avant tout des utilisateurs « humains ». L’exploration et l’exploitation des données par les machines requièrent alors des adaptations (filtrage, nettoyage, formatage…) supplémentaires. La table ronde discutera des attendus des machines en lien avec les processus méthodologiques utilisés par les SHS pour constituer leurs corpus et mettre en relation les données. Quelles sont les méthodologies des analyses de corpus attendues ou visées par les SHS ? Dans quelles mesures les processus informatiques contredisent ou accompagnent ces analyses (par exemple, intégration des données, navigation et visualisation des données) ?

L’objectif sera d’ouvrir le dialogue entre les chercheurs (dont les doctorants et post-doctorants) des différentes communautés et les ingénieurs de celles-ci à partir d’exemples ou d’expériences. Cette première rencontre concernera principalement les éléments de vocabulaire utilisés par chaque communauté, l’une des premières difficultés rencontrée dans tout projet de recherche pluridisciplinaire. L’exemple choisi pour la discussion concerne le mot « donnée ». La notion renvoie-t-elle bien à la même réalité dans les communautés des SHS et des SI ? Qu’est-ce qu’une donnée ? Parle-t-on de « donnée » ou de « données » ? Qu’est-ce qu’une « donnée propre » ? Utilisable par un ordinateur ? Quels sont les pré-requis des données exploitables automatiquement ?

La table ronde est ouverte à tous, les participants sont invités à venir avec des exemples concrets de jeux de données, de méthodes de collectes de données et d’expériences.

Responsables de l’atelier

– Natalia GRABAR (Chargée de recherche en traitement automatique de langues, CNRS, Lille)

– Cyril GROUIN (Ingénieur d’étude, CNRS, LIMSI)

– Fatiha IDMHAND (Professeure de lettres et de littératures hispaniques, Université de Poitiers)

– Sabine LOUDCHER (Professeure d’informatique, Université Lyon 2)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *