Le traitement automatique des langues à l’honneur au Collège de France
Mis à jour le 17/07/2024
Intelligence artificielle générative, traduction automatique, agents conversationnels... Ces technologies relèvent toutes du traitement automatique des langues (TAL), auquel Benoît Sagot, responsable de l’équipe-projet Inria ALMAnaCH, consacre sa carrière de chercheur. À compter du 30 novembre, il en dévoilera les enjeux face au grand public dans le cadre de la chaire du Collège de France qu’il vient de se voir décerner. À vos agendas !
Intelligence artificielle : du fantasme à la réalité
Expliquer factuellement et de façon pédagogique, la nature et le fonctionnement des systèmes d’intelligence artificielle (IA) permettant notamment de générer automatiquement du texte à partir d’une consigne écrite. C’est le défi que s’apprête à relever Benoît Sagot ; il vient de se voir attribuer la prestigieuse chaire "Informatique et sciences numériques" du Collège de France, pour l’année académique 2023-2024. Ce chercheur est responsable de l’équipe-projet ALMAnaCH du Centre Inria de Paris, spécialisée dans le traitement automatique des langues (TAL) et les humanités numériques. Il est aussi titulaire d’une chaire au sein de l’institut interdisciplinaire PRAIRIE, dédié à la recherche en intelligence artificielle.
Aujourd’hui, cette mission de vulgarisation est plus que jamais nécessaire. Car aux yeux du chercheur, les agents d’IA générative « suscitent un fort bruit ambiant, parfois toxique, et un grand nombre de fantasmes mortifères ». Quant à la mise à disposition pour tous de la solution ChatGPT, développée par l’organisation américaine OpenAI, elle « ne constitue pas à proprement parler une révolution scientifique ou technologique, mais elle a permis à tout un chacun de jouer avec l’outil, et par là même d’entrevoir les bouleversements qu’il est susceptible d’entraîner dans de nombreux domaines. ChatGPT illustre les progrès considérables réalisés en TAL depuis une vingtaine d’années, y compris pour des applications grand public telles que la correction orthographique et la traduction automatique. »
La multiplicité des langues : un défi pour les scientifiques
Car en matière de TAL, la recherche ne cesse de progresser, comme le reflète le parcours très riche de Benoît Sagot : « En 2002, lorsque j’ai commencé mes travaux au sein de l’ancienne équipe-projet ATOLL, j’ai beaucoup travaillé sur le développement de grammaires et de lexiques formalisés, puis sur l’analyse syntaxique (l’analyse de la structure grammaticale des phrases) », détaille le chercheur, qui s’est orienté vers ce domaine pour concilier sa double passion pour les langues et l’informatique. « Au sein de l’équipe-projet Alpage, qui a précédé ALMAnaCH, j’ai poursuivi mes recherches en TAL tout en élargissant mes recherches à la linguistique computationnelle, qui consiste à étudier les questions de linguistique sous des angles quantitatifs et computationnels. »
Les travaux sont effectués pour plusieurs langues. « Il est important d’analyser la diversité des langues et de leur fonctionnement pour comprendre pourquoi quelque chose peut s’appliquer dans une langue donnée et pas dans une autre », souligne Benoît Sagot. Outre des travaux sur l’anglais et le français, le directeur de recherche a ainsi travaillé à des degrés divers sur de nombreuses langues. Il a par exemple co-encadré il y a une dizaine d’années une thèse sur « La segmentation du mandarin », une langue difficile à traiter par le biais d’outils informatiques : « Il n’y a pas d’espaces entre les mots et on peut donc vouloir trouver une autre façon de les identifier pour pouvoir les analyser et les traiter ». Il a également cofondé la startupOpensquare, où il développe des systèmes d’analyse et de restitution d’enquêtes auprès de salariés de grands groupes internationaux, dont les employés s’expriment dans des dizaines de langues.
L’apprentissage automatique des langues en plein boom
Pour relever ces défis, les scientifiques de l’équipe de recherche ALMAnaCH peuvent compter sur l’augmentation de la puissance de calcul et s’appuient sur les technologies d’apprentissage automatique, tout en contribuant à leur développement. « Le traitement automatique des langues, un sous-domaine de l’intelligence artificielle, s’est nettement développé au cours de ces dernières années grâce à la généralisation des réseaux de neurones », relève Benoît Sagot. Le but de ces réseaux ? Apprendre aux ordinateurs à analyser et traiter des données d’une manière inspirée, quoique de loin, par le fonctionnement du cerveau humain. Les réseaux de neurones sont l’un des moyens d’aborder l’apprentissage supervisé (à partir d’exemples annotés) et l’apprentissage non supervisé (à partir de données brutes), en particulier grâce à l’apprentissage profond (ou deep learning),qui s’appuie sur des réseaux de neurones de grande taille.
Sensibiliser le public et continuer d’innover
Expert reconnu du domaine, le chercheur se réjouit de pouvoir désormais présenter ces multiples avancées au Collège de France.« Je suis très honoré d’avoir la possibilité d’intervenir dans ce cadre. Il s’agit d’un sujet de société aux implications importantes, et mon but est de donner des clés de compréhension à un public le plus large possible. »
La chaire se tiendra du 30 novembre 2023 au 9 février 2024, à raison d’une heure de cours par semaine (une vidéo sera systématiquement disponible en rattrapage, sur le site du Collège de France). Chaque cours sera suivi d’une intervention d’une heure d’un expert invité.
La leçon inaugurale (le 30 novembre 2023 à 18h), intitulée « Apprendre les langues aux machines » présentera le traitement automatique des langues dans son contexte historique et dressera un état des lieux de la discipline. Au menu des cours qui suivront : un aperçu de ce que sont les données textuelles et de la façon de les représenter ; puis des présentations des approches symboliques ou probabilistes, des modèles de langue, des approches neuronales contemporaines, des systèmes de traduction automatique, des enjeux posés par les agents conversationnels et des recherches actuelles sur la multimodalité (combinant texte et parole ou texte et image).
À l’horizon, la frugalité des modèles
Cette chaire sera aussi l’occasion, pour tous, de comprendre les thèmes de recherche prioritaires aux yeux d’ALMAnaCH. « Pour les mois et années à venir, l’un de nos enjeux principaux est la frugalité, souligne Benoît Sagot. Les modèles de langue et les modèles conversationnels sont très coûteux : nous aimerions donc avoir besoin de moins de ressources de calcul et de moins de données d’entraînement pour les fabriquer, notamment pour les langues peu dotées (pour lesquelles il y a peu de données textuelles disponibles). »
Autres défis à relever : la robustesse, qui tient à la capacité des applications à fonctionner avec des textes s’éloignant des niveaux de langue les plus habituels, ainsi que l’"alignement", terme qui dénote la capacité des IA génératives à respecter un ensemble de principes et de valeurs. Des missions ambitieuses qui motivent Benoît Sagot et son équipe.
Verbatim
Mes cours au collège de France ont pour objectif de présenter à un large public les principales recherches actuelles en traitement automatique des langues. Il me semble important de faire la lumière sur ce sujet qui se trouve cette année sous le feu des projecteurs, notamment avec l’arrivée de ChatGPT.
Auteur
Benoît Sagot
Poste
Responsable de l’équipe-projet ALMAnaCH, et professeur invité au Collège de France
Biographie express de Benoît Sagot
2000 : diplôme de l’École polytechnique.
2002-2006 : doctorant au sein de l’équipe-projet ATOLL (Atelier d’outils logiciels pour le langage naturel) d’Inria Rocquencourt.
2007-2016 : chargé de recherche Inria au sein de l’équipe-projet Alpage (Analyse linguistique profonde à grande échelle), puis responsable de cette équipe.
Depuis 2017 : responsable de l’équipe-projet ALMAnaCH (Automatic Language Modelling and Analysis & Computational Humanities).
Depuis 2019 : titulaire d’une chaire dans l’institut interdisciplinaire PRAIRIE (Interdisciplinary Research and Education in AI).
L’équipe-projet ALMAnaCH
L’équipe-projet ALMAnaCH (pour Automatic Language Modelling and Analysis & Computational Humanities) est dédiée au traitement automatique des langues (TAL, ou NLP), un domaine clé de l'intelligence artificielle et des humanités numériques, à l'interface entre informatique théorique, apprentissage automatique et linguistique. Ses recherches concernent l'entraînement, l'analyse et l'utilisation des modèles de langue neuronaux (l'équipe a produit les modèles CamemBERT et CamemBERTa, a contribué à produire BLOOM et travaille sur les modèles les plus récents) ainsi que les applications qui s'appuient sur ces modèles (y compris la traduction automatique et les agents conversationnels) et leur interprétabilité, tout en poursuivant certains travaux antérieurs s’appuyant sur des approches symboliques et statistiques.
L’équipe travaille aussi au développement de ressources linguistiques (par exemple le corpus OSCAR, plusieurs corpus arborés et corpus parallèles, les lexiques, des corpus historiques construits à l'aide d'OCR et d' HTR appliqués aux documents d'archives et autres documents historiques) et à l'extraction et la récupération d'informations (en particulier à partir de corpus scientifiques, médicaux et juridiques ainsi que de documents historiques). L'une des problématiques transversales de l'équipe est celle de la variation linguistique, à la fois dans un sens historique et entre les états de langue contemporains (développement de systèmes de TAL robustes pour le contenu web bruité et les variétés dialectales de la langue, par exemple).
« Large-scale Language Models & Their Training Corpora » (vidéo en anglais), conférence de Benoît Sagot lors de l'Atelier franco-tchèque sur l'IA organisé par le ministère tchèque des Affaires étrangères et l'ambassade de France à Prague les 12 et 13/9/2022.