Intelligence artificielle

Vers un risque d’effondrement des IA génératives ?

Date:

Mis à jour le 05/03/2025

Que se passe t’il si un modèle d’intelligence artificielle (IA) générative s’entraine sur une proportion de plus en plus importante d’images auto-générées ? C'est à cette question que Quentin Bertrand, chargé de recherche au centre Inria de Lyon et membre de l’équipe-projet Malice a tenté de répondre.
image illustrant une IA s'entraînant sur des images générées par d'autres IA

Image générée via le modèle génératif Dall.E. Prompt utilisé : "image illustrant une IA s'entraînant sur des images générées par d'autres IA".

 

L’International Conference on Learning Representations 2024 (ICLR 2024) est un événement rassemblant professionnels et chercheurs du monde entier autour des avancées en Deep Learning. Lors de cette conférence, Quentin Bertrand, Joey Bose, Alexandre Duplessis, Marco Jiralerspong et Gauthier Gidel ont présenté un article intitulé « On the stability of iterative retraining of generative models on their own data ».

Dans celui-ci, les auteurs explorent ainsi les conditions dans lesquelles un modèle pourrait « s’effondrer » (collapse), un phénomène où, à force d’auto-alimentation, l’IA produit des résultats de plus en plus biaisés, homogènes, appauvris et inexact. Les résultats de cette étude pourraient bien apporter un nouvel éclairage sur un enjeu central des modèles génératifs. Explications.

L’apprentissage des modèles génératifs

Un modèle génératif d’images synthétiques ne crée pas d’illustrations à partir de rien. En effet, des modèles connus comme MidJourney, Stable Diffusion ou DALL·E, apprennent en étant alimentés par des jeux de données massifs (images, légendes, métadonnées, titre etc.). Ces données sont extraites de diverses sources sur le web, souvent via des processus automatisés comme le web scraping, ou d’autres techniques d’acquisition de données. Une fois collectées, elles sont structurées et nettoyées pour l’entraînement de l’IA. Cette phase d’apprentissage permet à l'IA de comprendre ce qu'est un chat, un chien, un style artistique, une couleur ou une texture par exemple. Lorsqu'une requête est soumise, l'IA analyse les mots, les compare à sa base de données et génère une image en fonction des correspondances trouvées.

Quand des IA s’entrainent sur … des images d’IA

Et les résultats sont tellement impressionnants, que les modèles génératifs remportent un succès grandissant auprès du grand public. Les images dites synthétiques envahissent aujourd’hui internet. Et… comme un serpent qui se mordrait la queue, les IA commencent à s’entrainer sur une proportion toujours plus croissante d’images synthétiques. Détecter ce contenu dans les ensembles de données est devenu un problème complexe en soi. Les chercheurs développant de nouvelles générations de modèles génératifs doivent déjà faire face à la réalité suivante : leurs bases d'entraînement contiennent inévitablement du contenu artificiel, rendant ainsi leurs ensembles de données mixtes, c’est-à-dire combinant données réelles et auto-générées. 

L'entraînement sur ces ensembles de données mixtes modifie-t-il les performances des modèles ? 

Plusieurs articles ont tenté de traiter la question. Parmi eux, citons « AI models collapse when trained on recursively generated data » publié dans la revue Nature. Dans celui-ci, les chercheurs questionnent le phénomène. Leur conclusion est alarmante : si ce processus n'est pas maîtrisé, il pourrait conduire à un effondrement des modèles génératifs. En effet, à force de traiter des données synthétiques, les productions des IA génératives deviendront de plus en plus homogènes, biaisées et sujettes aux erreurs. En ce sens, les productions vont perdre en diversité ainsi qu’en richesse de contenu. Pour illustrer cela, imaginez un processus de photocopie infinie où chaque nouvelle copie perd un peu plus de la richesse de l'original.

Figure 1 : Échantillons générés par l'EDM entraîné sur l'ensemble de données FFHQ. Le réentraînement itératif du modèle exclusivement sur ses propres données générées entraîne une dégradation de l'image (rangée supérieure).  En revanche, le réentraînement sur un mélange de données à moitié réelles et à moitié synthétiques (au milieu) donne une qualité similaire au réentraînement sur des données réelles (en bas).
Tiré de "ON THE STABILITY OF ITERATIVE RETRAINING OF GENERATIVE MODELS ON THEIR OWN DATA" Publié lors de la conférence ICLR 2024
Figure 1 : Échantillons générés par l'EDM entraîné sur l'ensemble de données FFHQ. Le réentraînement itératif du modèle exclusivement sur ses propres données générées entraîne une dégradation de l'image (rangée supérieure). En revanche, le réentraînement sur un mélange de données à moitié réelles et à moitié synthétiques (au milieu) donne une qualité similaire au réentraînement sur des données réelles (en bas).

Un effondrement pas si inévitable

L’article coécrit par Quentin Bertrand apporte une nuance essentielle aux conclusions de l’étude publiée dans Nature. En effet, les expérimentations menées sur les modèles génératifs les plus usités démontrent que l'entraînement peut rester stable, à condition que le modèle initial soit suffisamment bien entraîné et qu'une part conséquente des données d'entraînement provienne de sources réelles plutôt que synthétiques. Le véritable enjeu n’est pas d’exclure chaque image synthétique mais plutôt de s’assurer d’un pourcentage suffisant d’images non synthétiques. Par contre, si le pourcentage d’images réelles devient trop faible, alors oui, l’IA risque effectivement de s’effondrer.

Par ailleurs, la curation humaine joue un rôle central dans la stabilité du modèle. La plupart des interfaces de modèles génératifs vous proposent parfois de choisir entre deux images générées. Ce processus de curation humaine, agit comme une forme de"feedback indirect" pour la machine orientant l’évolution du modèle. En somme, à chaque fois que vous faites un choix, vous orientez manuellement l’IA et corrigez indirectement les potentielles erreurs. Pour être « performante » et contourner le problème d’une quantité toujours plus croissante d’images synthétiques, une IA générative doit à la fois contenir un pourcentage suffisant d’images réelles et disposer d’une méthode de curation humaine agissant comme feedback final.

La curation humaine : une solution sans risque ? 

Malheureusement non, le processus de curation peut également comporter des risques comme la réduction de la diversité culturelle et ethnique. En effet, si la majorité des utilisateurs préfèrent des images dans un certain style (ex : visages symétriques, peau lisse et blanche), alors l’IA produira plus souvent ce type d’images au détriment d’autres. Concernant les stéréotypes, lorsqu’on demande à une IA de représenter un métier qui ne comporte pas de distinction entre le féminin et le masculin, syntaxiquement parlant (par exemple en anglais : « Imagine a CEO » ou « Imagine a secretary »), l’IA aura tendance à représenter un homme en CEO et une femme en secrétaire.

Idem pour les IA génératives de textes. Si un modèle est réentraîné sur des réponses déjà optimisées pour être populaires, ne risque t’on pas d’exclure des styles d’écritures ou des tournures moins courantes ?

En conclusion, l’essor des modèles génératifs repose sur leur capacité à assimiler et reproduire des données issues du monde réel. Pourtant, face à la prolifération des contenus synthétiques, ces modèles doivent éviter l’écueil de l’auto-apprentissage excessif qui pourrait les mener à une homogénéisation appauvrissante, voire à un effondrement.

Loin d’un scénario catastrophe inéluctable, les recherches menées par Quentin Bertrand suggèrent que des solutions existent : maintenir une proportion suffisante de données réelles et intégrer la curation humaine comme garde-fou. Ces approches permettront d’assurer la diversité et la pertinence des contenus générés, tout en préservant la richesse informationnelle du web. Malgré tout, une question éthique demeure : comment s’assurer que la curation humaine respecte la diversité culturelle inhérente à l’espèce humaine ?