Le traitement automatique des langues à l’honneur au Collège de France

Intelligence artificielle : du fantasme à la réalité

Expliquer factuellement et de façon pédagogique, la nature et le fonctionnement des systèmes d’intelligence artificielle (IA) permettant notamment de générer automatiquement du texte à partir d’une consigne écrite. C’est le défi que s’apprête à relever Benoît Sagot ; il vient de se voir attribuer la prestigieuse chaire "Informatique et sciences numériques" du Collège de France, pour l’année académique 2023-2024. Ce chercheur est responsable de l’équipe-projet ALMAnaCH du Centre Inria de Paris, spécialisée dans le traitement automatique des langues (TAL) et les humanités numériques. Il est aussi titulaire d’une chaire au sein de l’institut interdisciplinaire PRAIRIE, dédié à la recherche en intelligence artificielle.

Infographie expliquant les fonctionnalités du traitement automatique des langues. — Infographie explicative du TAL (par Freepik, WikiLucas00).

Aujourd’hui, cette mission de vulgarisation est plus que jamais nécessaire. Car aux yeux du chercheur, les agents d’IA générative « suscitent un fort bruit ambiant, parfois toxique, et un grand nombre de fantasmes mortifères ». Quant à la mise à disposition pour tous de la solution ChatGPT, développée par l’organisation américaine OpenAI, elle « ne constitue pas à proprement parler une révolution scientifique ou technologique, mais elle a permis à tout un chacun de jouer avec l’outil, et par là même d’entrevoir les bouleversements qu’il est susceptible d’entraîner dans de nombreux domaines. ChatGPT illustre les progrès considérables réalisés en TAL depuis une vingtaine d’années, y compris pour des applications grand public telles que la correction orthographique et la traduction automatique. »

La multiplicité des langues : un défi pour les scientifiques

Car en matière de TAL, la recherche ne cesse de progresser, comme le reflète le parcours très riche de Benoît Sagot : « En 2002, lorsque j’ai commencé mes travaux au sein de l’ancienne équipe-projet ATOLL, j’ai beaucoup travaillé sur le développement de grammaires et de lexiques formalisés, puis sur l’analyse syntaxique (l’analyse de la structure grammaticale des phrases) », détaille le chercheur, qui s’est orienté vers ce domaine pour concilier sa double passion pour les langues et l’informatique. « Au sein de l’équipe-projet Alpage, qui a précédé ALMAnaCH, j’ai poursuivi mes recherches en TAL tout en élargissant mes recherches à la linguistique computationnelle, qui consiste à étudier les questions de linguistique sous des angles quantitatifs et computationnels. »

Les travaux sont effectués pour plusieurs langues. « Il est important d’analyser la diversité des langues et de leur fonctionnement pour comprendre pourquoi quelque chose peut s’appliquer dans une langue donnée et pas dans une autre », souligne Benoît Sagot. Outre des travaux sur l’anglais et le français, le directeur de recherche a ainsi travaillé à des degrés divers sur de nombreuses langues. Il a par exemple co-encadré il y a une dizaine d’années une thèse sur « La segmentation du mandarin », une langue difficile à traiter par le biais d’outils informatiques : « Il n’y a pas d’espaces entre les mots et on peut donc vouloir trouver une autre façon de les identifier pour pouvoir les analyser et les traiter ». Il a également cofondé la startup Opensquare, où il développe des systèmes d’analyse et de restitution d’enquêtes auprès de salariés de grands groupes internationaux, dont les employés s’expriment dans des dizaines de langues.

Image d'illustration d'un manuscrit rempli de caractères chinois. — Manuscrit en mandarin (image par Markus de Pixabay)

L’apprentissage automatique des langues en plein boom

Pour relever ces défis, les scientifiques de l’équipe de recherche ALMAnaCH peuvent compter sur l’augmentation de la puissance de calcul et s’appuient sur les technologies d’apprentissage automatique, tout en contribuant à leur développement. « Le traitement automatique des langues, un sous-domaine de l’intelligence artificielle, s’est nettement développé au cours de ces dernières années grâce à la généralisation des réseaux de neurones », relève Benoît Sagot. Le but de ces réseaux ? Apprendre aux ordinateurs à analyser et traiter des données d’une manière inspirée, quoique de loin, par le fonctionnement du cerveau humain. Les réseaux de neurones sont l’un des moyens d’aborder l’apprentissage supervisé (à partir d’exemples annotés) et l’apprentissage non supervisé (à partir de données brutes), en particulier grâce à l’apprentissage profond (ou deep learning), qui s’appuie sur des réseaux de neurones de grande taille.

Sensibiliser le public et continuer d’innover

Expert reconnu du domaine, le chercheur se réjouit de pouvoir désormais présenter ces multiples avancées au Collège de France. « Je suis très honoré d’avoir la possibilité d’intervenir dans ce cadre. Il s’agit d’un sujet de société aux implications importantes, et mon but est de donner des clés de compréhension à un public le plus large possible. »

La chaire se tiendra du 30 novembre 2023 au 9 février 2024, à raison d’une heure de cours par semaine (une vidéo sera systématiquement disponible en rattrapage, sur le site du Collège de France). Chaque cours sera suivi d’une intervention d’une heure d’un expert invité.

Image d'illustration : cour du Collège de France. — Cour François Champollion du Collège de France (crédits : Patrick Imbert/Collège de France)

La leçon inaugurale (le 30 novembre 2023 à 18h), intitulée « Apprendre les langues aux machines » présentera le traitement automatique des langues dans son contexte historique et dressera un état des lieux de la discipline. Au menu des cours qui suivront : un aperçu de ce que sont les données textuelles et de la façon de les représenter ; puis des présentations des approches symboliques ou probabilistes, des modèles de langue, des approches neuronales contemporaines, des systèmes de traduction automatique, des enjeux posés par les agents conversationnels et des recherches actuelles sur la multimodalité (combinant texte et parole ou texte et image).

À l’horizon, la frugalité des modèles

Cette chaire sera aussi l’occasion, pour tous, de comprendre les thèmes de recherche prioritaires aux yeux d’ALMAnaCH. « Pour les mois et années à venir, l’un de nos enjeux principaux est la frugalité, souligne Benoît Sagot. Les modèles de langue et les modèles conversationnels sont très coûteux : nous aimerions donc avoir besoin de moins de ressources de calcul et de moins de données d’entraînement pour les fabriquer, notamment pour les langues peu dotées (pour lesquelles il y a peu de données textuelles disponibles). »

Autres défis à relever : la robustesse, qui tient à la capacité des applications à fonctionner avec des textes s’éloignant des niveaux de langue les plus habituels, ainsi que l’"alignement", terme qui dénote la capacité des IA génératives à respecter un ensemble de principes et de valeurs. Des missions ambitieuses qui motivent Benoît Sagot et son équipe.

Verbatim

Mes cours au collège de France ont pour objectif de présenter à un large public les principales recherches actuelles en traitement automatique des langues. Il me semble important de faire la lumière sur ce sujet qui se trouve cette année sous le feu des projecteurs, notamment avec l’arrivée de ChatGPT.

Benoît Sagot

Responsable de l’équipe-projet ALMAnaCH, et professeur invité au Collège de France

Photo de l'amphithéâtre Marguerite de Navarre au Collège de France. — Amphithéâtre Marguerite de Navarre au Collège de France (crédits : Patrick Imbert/Collège de France)

Biographie express de Benoît Sagot

Portrait de Benoît Sagot — Benoît Sagot (crédits : Patrick Imbert/Collège de France).

2000 : diplôme de l’École polytechnique.

2002-2006 : doctorant au sein de l’équipe-projet ATOLL (Atelier d’outils logiciels pour le langage naturel) d’Inria Rocquencourt.

2006 : doctorat (thèse sur l’« Analyse automatique du français : lexiques, formalismes, analyseurs ») à l’Université Paris-Diderot (Paris 7).

2007-2016 : chargé de recherche Inria au sein de l’équipe-projet Alpage (Analyse linguistique profonde à grande échelle), puis responsable de cette équipe.

Depuis 2017 : responsable de l’équipe-projet ALMAnaCH (Automatic Language Modelling and Analysis & Computational Humanities).

Depuis 2019 : titulaire d’une chaire dans l’institut interdisciplinaire PRAIRIE (Interdisciplinary Research and Education in AI).

L’équipe-projet ALMAnaCH

L’équipe-projet ALMAnaCH (pour Automatic Language Modelling and Analysis & Computational Humanities) est dédiée au traitement automatique des langues (TAL, ou NLP), un domaine clé de l'intelligence artificielle et des humanités numériques, à l'interface entre informatique théorique, apprentissage automatique et linguistique. Ses recherches concernent l'entraînement, l'analyse et l'utilisation des modèles de langue neuronaux (l'équipe a produit les modèles CamemBERT et CamemBERTa, a contribué à produire BLOOM et travaille sur les modèles les plus récents) ainsi que les applications qui s'appuient sur ces modèles (y compris la traduction automatique et les agents conversationnels) et leur interprétabilité, tout en poursuivant certains travaux antérieurs s’appuyant sur des approches symboliques et statistiques.

L’équipe travaille aussi au développement de ressources linguistiques (par exemple le corpus OSCAR, plusieurs corpus arborés et corpus parallèles, les lexiques, des corpus historiques construits à l'aide d'OCR et d' HTR appliqués aux documents d'archives et autres documents historiques) et à l'extraction et la récupération d'informations (en particulier à partir de corpus scientifiques, médicaux et juridiques ainsi que de documents historiques). L'une des problématiques transversales de l'équipe est celle de la variation linguistique, à la fois dans un sens historique et entre les états de langue contemporains (développement de systèmes de TAL robustes pour le contenu web bruité et les variétés dialectales de la langue, par exemple).

Liste des cours de Benoît Sagot et des séminaires

30 novembre 2023
Leçon inaugurale de Benoit Sagot : « Apprendre les langues aux machines »

8 décembre 2023
Premier cours de Benoît Sagot : « Représenter les unités textuelles ».
Séminaire de Jean-Baptiste Camps : « Quelques exemples d'application du TAL aux humanités numériques »

15 décembre 2023
Cours de Benoît Sagot : « Approches symboliques et probabilistes »
Séminaire de Guillaume Jacques : « Deux exemples d’usage des transducteurs en linguistique »

22 décembre 2023
Cours de Benoît Sagot : « Modèles de langue »
Séminaire d’Emmanuel Dupoux : « Apprendre un modèle de langue à partir de l’audio »

12 janvier 2024
Cours de Benoît Sagot : « Traduction automatique »
Séminaire de François Yvon : « Traduction neuronale massivement multilingue »

19 janvier 2024
Cours de Benoît Sagot : « Approches neuronales pour quelques tâches applicatives »
Séminaire Claire Gardent : « Génération de texte à partir de connaissances"

26 janvier 2024
Cours de Benoît Sagot (26 janvier 2024) : « Linguistique computationnelle »
Séminaire Elena Cabrio : « Analyse automatique de l'argumentation dans les débats politiques »

2 février 2024
Cours de Benoît Sagot : « Converser avec la machine »
Séminaire de Philippe Blache : « Prédire c'est comprendre : un modèle neuro-cognitif du langage fondé sur la prédiction »

9 février 2024
Cours de Benoît Sagot : « Multimodalités : TAL et images, TAL et parole »
Séminaire de Yann Lecun : « L'IA axée sur les objectifs : vers des machines capables d'apprendre, de raisonner et de planifier »

En savoir plus sur la chaire annuelle Informatique et sciences numériques

Communiqué de presse du Collège de France « Apprendre les langues aux machines - Leçon inaugurale » (PDF).
En savoir plus sur la chaire annuelle du Collège de France "Informatique et sciences numériques".
Entretien avec Benoît Sagot : « La frontière entre ingénierie et recherche se déplace vite. »

En savoir plus sur l’IA et le traitement automatique des langues

Benoit Sagot et Aaron Hertzmann parlent d'IA, conférence au Centre Inria de Paris le 23/11/2023, Inria.
[L’IA et ses défis] « Initiation à l’apprentissage profond, au cœur de l’IA moderne » (vidéo) conférence de Benoît Sagot lors d’un colloque organisé par le Campus de l’Innovation pour les Lycées (rattaché au Collège de France) et par SciencesPo le 28/9/2023.
Quelle éthique pour les agents conversationnels ? (podcast), Interstices, 4/9/2023.
Nouvelles technologies : Faut-il que les accents soient "gommés" par l’intelligence artificielle ? 20 Minutes (avec The Conversation), 18/1/2023.
« Large-scale Language Models & Their Training Corpora » (vidéo en anglais), conférence de Benoît Sagot lors de l'Atelier franco-tchèque sur l'IA organisé par le ministère tchèque des Affaires étrangères et l'ambassade de France à Prague les 12 et 13/9/2022.
BigScience voit grand pour les modèles de langue, CNRS Le Journal, 12/7/2022.
Limiter les divergences de jurisprudences grâce à l’intelligence artificielle, Inria, 21/2/2022.
L'intelligence artificielle au défi du langage (dossier) CNRS Le Journal, 8/1/2021.