Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le laboratoire MARGE, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l’aire francophone. Pour cela, l’outil de référence de l’archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.
Par ailleurs, en s’appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.
L’objectif de ce stage est de concevoir et mettre en œuvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d’analyser les données sous-jacentes.