2022 – Offre de stage : Conception et mise en ?uvre de l’interface d’analyse d’un lac de données web #BigData #Analytics

Logo projet ANR

Le projet LIFRANUM (LIttératures FRAncophones NUMériques), porté par le MARGE laboratory, vise à identifier, indexer et analyser des productions littéraires nativement numériques dans l?aire francophone. Pour cela, l?outil de référence de l?archivage web Heritrix a en premier lieu permis de constituer un corpus sous forme de fichiers de conservation au format Web ARChive (WARC). Des métadonnées des pages HTML ont ensuite été extraites des fichiers WARC (contenu textuel, fichier PDF, images, vidéo, etc.) et indexées dans Solr.

Par ailleurs, en s?appuyant sur des blogs appartenant à des auteurs identifiés, un deuxième corpus (fichiers JSON) a été constitué via les API de WordPress et Blogger. Des informations, pages, posts et commentaires ont été extraits et constituent la série de métadonnées, métadonnées stockées et indexées dans MongoDB.

L?objectif de ce stage est de concevoir et mettre en ?uvre une interface web commune aux deux types de sources de métadonnées (celles issues des WARC et celles provenant des API de blogs) pour permettre aux chercheur·es du laboratoire MARGE de requêter et d?analyser les données sous-jacentes.

Tous les détails de l’offre de stage

Leave a Reply

Your email address will not be published. Required fields are marked *