Un clic pour estomper quelques rides. Un autre pour amincir la silhouette. Un troisième pour ragaillardir les couleurs. Et le tour est joué. En quelques années, l'intelligence artificielle (IA) s'est invitée dans le traitement d'image avec les résultats fulgurants que l'on sait. Mais les fameux algorithmes à réseaux de neurones qui permettent cette prouesse se heurtent à un problème : ils peinent à absorber la dimension époustouflante des nouvelles images 3D issues des caméras omnidirectionnelles ou bien encore celles produites par les capteurs plénoptiques. Ces capteurs dits « à champ de lumière » ne se contentent plus de retranscrire l'image dans son plan 2D. Ils intègrent toutes les dimensions de la scène, y compris son volume, ce qui permet de choisir un point de focus parmi des milliers, de modifier la profondeur de champ ou encore de changer de cadrage.
La chaire en intelligence artificielle attribuée à Christine Guillemot ambitionne de développer des réseaux de neurones capables justement de passer à cette échelle. Elle s'inscrit dans le prolongement d'un projet CLIM (Computational Light Field IMaging) sur ces nouvelles modalités d'images sélectionné en 2016 par le Conseil européen de la recherche (ERC).
La taille des données impacte les algorithmes
« Durant ce projet ERC, nous avons déjà commencé à investir dans le "deep learning". Ces méthodes d'apprentissage profond marchent très bien, mais on ne peut pas les transposer immédiatement à l'imagerie omnidirectionnelle ou l'imagerie plénoptique. D'abord parce que la taille des données impacte aussi celle des algorithmes utilisés pour l'apprentissage. Déjà pour de la 2D, les réseaux de neurones doivent incorporer des millions et des millions de paramètres. Ce qui n'est pas sans poser de problèmes, par exemple, pour le stockage sur des appareils mobiles. Or, avec les nouvelles modalités d'images, le nombre de critères à prendre en compte explose. Par ailleurs, ces nouvelles images possèdent des propriétés spécifiques que nous devons prendre en compte. Par exemple, l'image omnidirectionnelle est sphérique. Il faut donc aussi intégrer cela dans nos modèles. »
Les nouveaux travaux vont d'abord consister à articuler l'apprentissage et la réduction de dimensionnalité. « On suppose que les données peuvent être représentées par des données de plus faible dimension dans des sous-espaces, des domaines particuliers définis généralement par des dictionnaires ou qui vont être appris par des réseaux de neurones. » Les recherches s'appuieront ici sur toute une panoplie de méthodes utilisées classiquement en traitement du signal et en compression : modélisation parcimonieuse, approximation de faible rang ou bien encore modèles à bases de graphes. « On peut voir, par exemple, les données plénoptiques comme des captures multi-vues. Les graphes vont nous aider à connecter les points corrélés. Grâce à l'information de profondeur dans la scène, on sait qu'un pixel ayant une position xy sur une vue est corrélé avec un pixel x'y' sur une autre. Mais les deux pixels correspondent en fait au même point 3D dans l'espace. On peut représenter cette information de dépendance par une arrête reliant deux nœuds d'un graphe afin que le réseau de neurones puisse ensuite en tenir compte. »
Problèmes inverses
Verbatim
Un problème inverse est un problème mal posé car il n'y a pas une solution unique étant donné les observations d'entrée.
La thématique est aussi fortement liée à la résolution de problèmes inverses comme on les rencontre classiquement en reconstruction de signal : débruitage, défloutage, super-résolution, échantillonnage compressé, etc. « Un problème inverse est un problème mal posé car il n'y a pas une solution unique étant donné les observations d'entrée. Celles-ci peuvent être floues ou bruitées si le capteur est de mauvaise qualité, s'il y a de l'aberration dans l'optique ou bien encore du mouvement durant la capture. Selon le dispositif employé, on dispose donc d'observations différentes à partir desquelles le modèle de formation d'image doit remonter vers les données de la scène réelle. »
Pour l'instant, « dans la littérature, on apprend un réseau de neurones pour chaque type de problèmes inverses. Un pour le débruitage, un pour la super-résolution, etc. Nous voudrions parvenir à un réseau unique utilisable pour tous ces cas. Il s'agirait de représenter au mieux un apriori sur l'image, sur les données que l'on cherche à reconstruire, et de pouvoir utiliser cet apriori profond dans des algorithmes classiques du traitement du signal pour combiner les méthodes d'optimisation. »
Difficulté supplémentaire : « pour bien fonctionner, les réseaux de neurones doivent se nourrir de grandes quantités de données d'apprentissage. Des millions d'exemples. Mais les technologies plénoptiques et omnidirectionnelles sont récentes. Nous ne disposons pas encore d'autant de données d'apprentissage. Par conséquent, nous risquons d'avoir des paramètres qui collent trop à un petit nombre d'images. C'est que l'on appelle la surinterprétation ou le surapprentissage. »
Microscopes plénoptiques
La chaire va durer quatre ans. Outre la contribution de Christine Guillemot, elle financera, via l'Agence nationale de la recherche, un jeune chercheur, un postdoctorant, un étudiant de thèse et un ingénieur. À cela s'ajoutent un étudiant de thèse financé par Inria et deux étudiants effectuant une thèse Cifre dans deux entreprises partenaires évoluant dans le secteur de l'image.
Ces travaux concernent de nombreux domaines d'application comme la voiture autonome. « La navigation du véhicule repose sur la vision par ordinateur. Le réseau de neurones est utilisé pour interpréter le contenu dans la scène. Avec des images plénoptiques, on va récupérer des informations beaucoup plus riches qu'en 2D. »
Dans un tout autre genre, « en microscopie, les informations 3D vont permettre d'effectuer de la super-résolution pour choisir le meilleur plan focal dans l'axe optique. À l'université de Standford, des microscopes plénoptiques sont déjà à l'état de prototypes. »