16/12/19 – Séminaire : Caroline Brun (Naver Labs Europe)

Séminaire/congrès/conférence

Extraction faiblement supervisée d’informations fines dans des contenus textuels générés par les utilisateurs

Lundi 16/12/2019, 11:00, salle K71

De nombreuses applications permettent aux utilisateurs de chercher de l’information concernant des points d’intérêts (PIs) tels que des musées, hôtels, restaurants, parcs, etc., afin de préparer leur visite. Cependant, cette information est la plupart du temps limitée au contenu de bases de connaissances souvent incomplètes. Des informations utiles et complémentaires à ces bases de connaissances sont présentes dans le contenu textuel des revues utilisateurs de ces PIs. On peut ainsi trouver des informations relatives aux activités proposées, aux œuvres exposées, aux périodes de visite, à l’accessibilité, aux services, aux tarifs et modes de paiement, aux accessoires ou consommables nécessaire à la visite, etc.

Dans cette présentation, nous décrivons un système visant à extraire automatiquement ce type d’informations fines dans les revues utilisateur des points d’intérêts, ces informations pouvant être exprimées de manière explicite ou implicite. L’approche adoptée se fonde sur l’utilisation d’une ontologie de concept sémantiques pour modéliser l’information à extraire. L’ontologie contient actuellement environ 180 étiquettes sémantiques ce qui constitue un réel challenge à la fois pour l’annotation des données et le système d’extraction d’information.

Nous détaillons la création des différents composants nécessaires au projet : l’ontologie de concepts et le guide d’annotation associé, le jeu de données, basé sur des commentaires de la plateforme Foursquare, le modèle « baseline » d’extraction faiblement supervisé et son évaluation. Une annotation d’une telle granularité nous a conduit à développer notre propre interface d’annotation que nous présentons également.