L’équipe NewsEye du L3i grande gagnante de la compétition CLEF-HIPE-2020 La Rochelle Université > Actualités > L’équipe NewsEye du L3i grande gagnante de la compétition CLEF-HIPE-2020 Publié le 29 juin 2020 En s’imposant dans 50 des 52 catégories de la compétition CLEF-HIPE-2020, l’équipe NewsEye du L3i menée par l’enseignant-chercheur Antoine Doucet a démontré toute l’étendue de son expertise dans le processus d’extraction et désambiguïsation des entités nommées dans les journaux historiques. Félicitations à toute l’équipe ! Dans le cadre de la 11e conférence européenne CLEF (Conference and Labs of the Evaluation Forum), organisée exceptionnellement de façon dématérialisée, l’équipe NewsEye du L3i a réalisé une performance significative. En s’imposant comme grande gagnante de la compétition HIPE 2020 (Identifying Historical People, Places and other Entities), l’équipe s’est illustrée dans sa maîtrise des processus d’extraction et désambiguïsation des entités nommées dans les journaux historiques en français, allemand et anglais. Avec 40 équipes de recherche inscrites pour 13 participantes réparties sur 6 pays, HIPE 2020 a réuni une foule d’expert·es autour de deux thèmes de recherche. Reconnaissance automatique d’entités nommées La première partie du travail demandé aux chercheur·ses concernait la reconnaissance automatique de mentions de noms de personnes, de lieux ou bien encore d’organisations. Depuis les débuts de l’analyse automatique du texte, la désambiguïsation lexicale a posé un problème de taille. En effet, alors que notre cerveau réussit facilement, en fonction du contexte, à faire la différence entre deux termes, personnes ou lieux homonymes, l’ordinateur aura plus de mal à effectuer cette même tâche. Mettre en commun toutes ces informations et les rendre accessibles et intelligibles au plus grand nombre est un enjeu économique majeur de l’analyse du langage, particulièrement difficile sur les documents anciens (erreurs dues à la numérisation, vocabulaire et typographies anciennes, etc.). Le procédé d’enrichissement sémantique développé par l’équipe du L3i permet d’attribuer aux textes des marqueurs qui permettront ensuite de pouvoir différencier les termes mais aussi de les analyser en fonction du contexte donné. Ainsi, il sera possible de reconnaître automatiquement si le terme « Breton » renvoie à un habitant de la Bretagne ou à l’auteur André Breton, dans quel contexte particulier il a été utilisé, si l’article est positif ou négatif, etc. Mise en relation avec les bases cross-lingues Avec ses 37 langues nationales, l’Europe est un espace riche d’histoires et de cultures, à la fois communes et propres à chaque nation. Aussi, il est intéressant de pouvoir se plonger dans l’étude des journaux anciens quelles que soient leurs langues de rédaction, afin d’en étudier les différences et les similitudes. La seconde phase de la compétition demandait à ce que les résultats précédents soient associés à des bases cross-lingues type Wikipedia qui relient une même entité à ses équivalents dans d’autres langues (dans ce cas précis,français, anglais et allemand) ; franchissant ainsi les frontières linguistiques. Déjà conscient de cette problématique, le projet NewsEye collecte des articles de presse ancienne (1850-1950) en plusieurs langues, entre autres l’allemand, le français ou le finnois. L’équipe NewsEye du L3i effectue un travail d’enrichissement sémantique des articles dans toutes les langues afin de pouvoir rendre possible une analyse comparative, indépendamment de la langue utilisée. En apposant des marqueurs communs à toutes les langues, elle rend possible un traitement automatique des données efficaces. Alors que certain·es de ses concurrent·es sont spécialistes d’une langue spécifique, le système indépendant des langues développé par l’équipe NewsEye du L3i a fait mieux que tous les autres dans les trois langues, et lui permet d’obtenir la meilleure performance dans 50 des 52 catégories de la compétition. Le projet NewsEye Le projet NewsEye est soutenu par le programme cadre de recherche et d’innovation de la commission européenne Horizon 2020 (accord de financement n° 770299). Lancé en 2018, NewsEye a pour but de faciliter l’accès à la presse ancienne (1850-1950) sous forme numérique exploitable, aussi bien pour les chercheur·ses que pour le grand public, et de façon généralisable à toutes les langues. Il implique 11 équipes de différents pays d’Europe (France, Allemagne, Finlande et Autriche) qui proviennent de bibliothèques nationales et de groupes de recherche en sciences humaines et en informatique. Le projet est coordonné par Antoine Doucet, enseignant-chercheur à La Rochelle Université. Lire le communiqué de presse de lancement