Dès son lancement, ChatGPT a suscité la curiosité du grand public avant de provoquer polémiques et discours alarmistes sur la menace qu’il faisait peser sur certaines activités professionnelles. Pour Karën Fort, « les dangers réels de l’intelligence artificielle tiennent pourtant moins à ses capacités, en partie fantasmées, qu’au manque d’engagement éthique accompagnant son développement et aux impacts sociétaux ou environnementaux qui en découlent ». Lorsqu’au début des années 2010 Karën Fort découvre le microtravail, à l’occasion de sa thèse, la manière dont les "travailleurs du clic" sont traités l'encourage à leur consacrer un article qui marquera le début de sa réflexion autour de l’éthique. Celle-ci s’approfondira dans les années suivantes en se concentrant sur la question des biais stéréotypés dans des outils utilisés pour le traitement automatique des langues : les grands modèles de langues (Large Language Models ou LLM en anglais).
Des LLM performants mais biaisés
Construits sur des réseaux de neurones profonds entrainés à partir de corpus de données en ligne considérables – « l’équivalent de 100 millions de Tour du Monde en 80 jours » - les LLM sont utilisés par de nombreuses applications de traitement automatique des langues : outils de traduction automatique, chatbots, logiciels d’analyse de sentiments, etc. Si leur aptitude à produire du texte, selon une logique autorégressive qui consiste à retrouver de manière prédictive le mot suivant dans une phrase, est impressionnante, il apparait cependant que ces systèmes sont source de nombreux biais.
Lors de son master Langue et Informatique encadré par Karën Fort et Aurélie Névéol*, Fanny Ducel, aujourd’hui doctorante au sein du LISN (avec les mêmes encadrantes) a étudié les mécanismes des LLM. Elle a demandé à des modèles de produire des lettres de motivation correspondant à différents domaines de compétence professionnelle. Bien que ses prompts (invites) ne comportaient aucune indication de genre, les courriers générés étaient quant à eux genrés en fonction du type de formation annoncée, un diplôme de coiffure ou d’informatique conduisant à une lettre rédigée respectivement au féminin ou au masculin. Inversement, à des prompts clairement genrés, certains outils ont répondu par des courriers dégenrés lorsque l’emploi visé n’était pas "traditionnellement" associé au genre de la personne qui en faisait la demande. L’analyse des 52 000 lettres obtenues et mises en perspective avec les statistiques sur la répartition femmes-hommes dans les métiers pris en compte a révélé que ces outils ne faisaient pas que reproduire les biais, en l’occurrence sexistes, mais les amplifiaient.
Un système qui entretient les discriminations
Constaté dans un cadre expérimental, un tel principe de fonctionnement a de quoi intriguer, sinon déranger. Il devient autrement problématique lorsque les outils qui l’appliquent sont utilisés dans des applications quotidiennes privées ou publiques, comme cela a été le cas avec un chatbot mis en place par le ministère du Travail autrichien début 2024 pour orienter les demandeurs d’emploi. La reproduction amplifiée de biais implicites (les femmes ne sont pas douées pour l’informatique) ou de représentation (parler d’ingénieur en informatique au lieu d’ingénieure en informatique) entretient des biais d’allocation qui privent de leurs droits des catégories d’individus discriminées du fait de leur origine ethnique, de leur orientation sexuelle, de leur situation de handicap, de leur apparence physique, ou encore de leur situation socio-économique.
« Le leurre du technosolutionnisme »
Ces dysfonctionnements, qui révèlent une tendance à la caricature inhérente au machine learning, pointent aussi la responsabilité de développeurs présentant dans leur grande majorité le même profil socio-économique. Symptôme supplémentaire de cette position dominante, les performances des LLM sont optimales pour un nombre de langues restreint – l’anglais principalement et, dans une moindre mesure, une cinquantaine sur les 7 000 existantes –, « mais pour le Breton ou le Sami, une des langues parlées dans les pays du Nord de l’Europe (Norvège, Suède, Finlande), les résultats sont très mauvais ». À cela s’ajoute une dimension écologique souvent sous-évaluée. « L’impact environnemental des modèles est catastrophique en termes de consommation d’énergie et de ressources naturelles ou d’emprise sur la terre. La question sera bientôt de savoir s’il faut utiliser l’énergie et l’eau pour des hôpitaux ou pour des data centers. Et elle se pose aujourd’hui, car ce qui est sous-estimé, également, c’est la rapidité de la catastrophe qui s’annonce » alerte la chercheuse.
Encore faut-il savoir y apporter la réponse appropriée. En la matière, Karën Fort ne croit pas au solutionnisme technologique : « Penser que la technologie va résoudre les problèmes de la technologie est un leurre. Un réseau de neurones est si puissant qu’il est difficile d’en comprendre les ramifications. C’est une boite noire : on peut taper dessus pour voir comment ça résonne mais personne ne sait vraiment ce qu’il y a dedans. Les failles de ChatGPT sont par ailleurs de moins en moins visibles parce qu’Open AI emploie des gens au Kenya pour les identifier et nettoyer nos déchets intellectuels, mais elles sont toujours présentes. »
Une éthique à construire
En dépit d’un discours dont la radicalité est dictée par l’urgence de la situation, Karën Fort ne cède pas pour autant à la résignation : « Avant de savoir comment résoudre le problème, il faut être capable de le mesurer et, bien sûr, en prendre conscience. Le sujet est encore peu abordé, en particulier en France. » Sur ce point, un article publié en 2021 par quatre chercheuses américaines et consacré aux questions éthiques posées par le développement des LLM a agi comme une sorte de révélateur – même si, précise Karën Fort, « deux de ses rédactrices qui faisaient partie de l’équipe Éthique de Google ont été licenciées à la suite de sa publication ». Depuis, le nombre de chercheurs et chercheuses à s’intéresser à la question croît lentement mais sûrement. « Les sujets d’étude ne manquent pas. Il faut développer des modèles plus frugaux, plus respectueux de l’environnement. Des équipes y travaillent et élaborent des solutions qui doivent encore être testées. D’autres étudient des méthodes de débiaisage. Il faut aussi mettre en place un panel d’évaluation plus sérieux et plus large, prenant en compte les communautés aujourd’hui négligées. Ce sont des objets de recherche à part entière dans lesquels Inria a son mot à dire et des pistes à proposer. »
Mais l’espoir pour Karën Fort vient surtout des jeunes générations qui se montrent plus sensibles à ces questions que leurs aînés. « J’ai co-animé fin 2022 "Think before loading", une formation à l’éthique de l’IA basée sur l’écriture créative pendant laquelle les doctorantes et doctorants rédigeaient une dystopie en s’inspirant de leurs travaux. L’attention qu’elles et ils portent à ces problématiques peut faire changer les choses. Mais il faut que ce changement vienne maintenant. »
* Directrice de recherche au département Sciences et Technologies des Langues du LISN
Une spécialiste des ressources linguistiques pour le TAL
Après sa thèse soutenue en 2012 – « Les ressources annotées, un enjeu pour l’analyse de contenu : vers une méthodologie de l’annotation manuelle de corpus » – Karën Fort a été maîtresse de conférences en informatique (spécialité TAL) à Sorbonne Université. Elle est aujourd’hui professeure à l’Université de Lorraine, responsable du Master 2 TAL et responsable locale du programme Erasmus Mundus LCT (Language & Communication Technologies) pour l’Institut des Sciences du Digital (IDMC). Elle assure par ailleurs la coordination du projet ANR InExtenso (Évaluation intrinsèque et extrinsèque des biais dans les grands modèles de langue).
Très tôt attachée aux questions d’éthique, Karën Fort a participé en 2013 à la création de la Charte Éthique et Big Data, puis, en 2015, à celle du blog Éthique et TAL. Membre du CER (Comité d’éthique de la recherche de Sorbonne Université) de 2019 à 2022 et chargée d’éthique du projet européen AI-Proficient de 2020 à 2023, elle copréside depuis 2021, avec Min Yen Kan et Luciana Benotti, le comité d'éthique de l’Association for Computational Linguistics (ACL).