Le traitement du langage naturel est un élément fondamental de l'intelligence artificielle. Ses applications sont aujourd’hui multiples, de la réponse à une requête sur le Web à la traduction automatique, en passant par la simplification et le résumé de texte.
Malgré des avancées majeures au cours des dernières années, rendues possibles notamment par la disponibilité de corpus de textes de grande taille, et le développement d’algorithmes d’apprentissage de plus en plus performants, les systèmes d’analyse automatique des langues ne permettent pas encore aux machines de comprendre les textes et les langues de manière aussi aboutie que les humains. Parmi les limitations actuelles de ces systèmes, on retrouve la difficulté de prédire les variations de sens en contexte, de combiner des informations de natures statistique et symbolique, ou de rendre les prédictions produites par ces systèmes plus explicables et interprétables.
Partage d'expertise et d'expérience franco-allemande
Une problématique abordée en janvier dernier lors d’une journée de rencontre entre Inria et l’institut de recherche allemand DFKI, au cours de laquelle les chercheurs présents ont pu préciser les questions scientifiques que cela pose, les méthodes à envisager, ou encore les domaines dans lesquels ils pourraient mener des expérimentations et les collaborations à mettre en œuvre.
Parmi ces derniers, trois équipes-projets Inria (Magnet, Sémagramme et Multispeech) et une équipe du DFKI (MLT), dont le point commun est de travailler avec et sur des données de nature langagière, ont décidé de proposer un projet, baptisé IMPRESS, axé sur la recherche de modèles capables d'intégrer des connaissances symboliques et de l'apprentissage profond pour la représentation du sens des mots et d’expressions linguistiques plus larges, avec un domaine, celui de la multimodalité (texte et vidéo) qui permet à la fois une évaluation des approches et la possibilité de travailler avec des connaissances autres que lexicales.
Nous prévoyons d’articuler notre travail autour de codirection de thèses, de séminaires communs, ainsi que de synergies communes déjà existantes (Nancy et Sarrebruck font, par exemple, partie d'un même programme de master Erasmus Mundus).
Pascal Denis, chercheur Inria et coresponsable du projet
De meilleurs résultats sur des tâches complexes de traitement automatique des langues
Chaque équipe impliquée dans IMPRESS pourra ainsi apporter son point de vue privilégié et son expertise sur le sujet : approche statistique et apprentissage automatique pour le traitement automatique des langues et développement de ressources (Magnet et Multispeech), modèles symboliques et développement de ressources (Sémagramme), ou encore dialogue humain-machine, traduction, développement et multimodalité (langue et vidéos, MLT), dans le but d’atteindre trois objectifs bien précis :
- Définir et développer des méthodes pour l'injection de connaissances, en particulier lexicales et sémantiques, dans les représentations numériques multidimensionnelles utilisées en apprentissage profond (obtenues uniquement grâce à des données langagières) afin d'améliorer les résultats obtenus dans des tâches de plus haut niveau comme la résolution des anaphores (c’est-à-dire, retrouver à quelle entité un pronom réfère) ;
- Définir et développer des méthodes pour l'injection de telles connaissances dans des représentations obtenues utilisées également dans des systèmes multimodaux (obtenues par des données à la fois langagières et vidéos) ;
- Développer et distribuer des logiciels libres mettant en œuvre ces méthodes.
Les impacts attendus sont à la fois d'obtenir de meilleurs résultats sur des tâches complexes de traitement automatique des langues, de proposer des ressources linguistiques et logicielles qui en tirent parti, mais aussi d'avancer dans l'explicabilité des résultats produits par les méthodes d'apprentissage profond.
Pascal Denis
IMPRESS, qui a reçu l’autorisation de débuter ses recherches le 29 mai dernier, attend désormais l’arrivée des doctorants et ingénieurs recrutés afin de lancer le travail scientifique de fond.