Être au bon endroit au bon moment pour prendre des photos n’est pas toujours chose facile. C’est pourtant une des composantes essentielles pour avoir des photos avec un rendu professionnel. La lumière d’un coucher de soleil ou l’alignement de celle-ci avec certains objets imposent parfois d’attendre longuement pour obtenir les meilleures conditions. Avec l’avènement des smartphones et des réseaux sociaux de plus en plus d’utilisateurs prennent et partagent des photos. Ils utilisent souvent des filtres pour embellir celles-ci mais sans pouvoir en changer le contenu. Grâce à l’apprentissage automatique (ou Machine Learning en anglais), et plus spécifiquement à un réseau de neurones, les chercheurs ont développé une méthode qui repousse la frontière du possible en termes de filtres et permet de modifier les conditions d’éclairage d’une photo ou même d’une vidéo.
Les premiers résultats présentés à la conférence SIGGRAPH
Julien Philip, doctorant sous la direction de George Drettakis dans l’équipe Graphdeco d’Inria Sophia Antipolis est principal contributeur sur le papier décrivant la méthode. Il a présenté leurs résultats à la conférence SIGGRAPH à Los Angeles début août. SIGGRAPH (Special Interest Group on Computer GRAPHics and Interactive Techniques) est une conférence internationale majeure sur l'infographie : elle regroupe chaque année depuis 1974 un grand nombre d’acteurs industriels, artistiques et scientifiques de l’univers de l’image de synthèse, qu’il s’agisse de films d’animation, de création d’effets spéciaux, de jeux vidéo ou de logiciels permettant la modélisation 3D.
Souvent, les réseaux de neurones ne peuvent que traiter de petites images dont la qualité n’est pas suffisante pour la photo (...) Ici le contrôle de l’éclairage est redonné aux utilisateurs.
D’après Julien Philip la méthode, qui reste expérimentale, permet déjà d’obtenir des résultats bluffants de réalisme. « Souvent, les réseaux de neurones ne peuvent que traiter de petites images dont la qualité n’est pas suffisante pour la photo ou se concentrent sur des tâches plus bas niveau comme le débruitage. Ici le contrôle de l’éclairage est redonné aux utilisateurs, ce sont eux qui décident si la photo finale semblera être prise le matin, à midi ou le soir. En fait, les utilisateurs peuvent laisser s’exprimer toute leur créativité et imaginer des éclairages totalement irréalistes. »
Épaulé par Michaël Gharbi, chercheur à Adobe , par Tinghui Zhou et Alexei Efros de l’université de Berkeley et par son directeur de thèse George Drettakis, Julien Philipp a montré qu’une seule photo n’était pas suffisante pour obtenir un résultat convaincant avec les méthodes actuelles. Pour pallier cette difficulté il utilise d’autres images (« vues ») du même lieu pour estimer la 3D de celui-ci et guider le changement d’éclairage. Ces multiples « vues » peuvent être obtenues en enregistrant une vidéo, en prenant plusieurs photos en se déplaçant, ou même en utilisant d’autres photos du même lieu récupérées automatiquement sur Internet.
L’algorithme peut alors être utilisé pour modifier une photo, générer un effet de « time lapse » sur celle-ci ou éditer une vidéo. La méthode peut également être adaptée aux pipelines multivues traditionnels tels que le « rendu à base d'images (IBR) » ou la photogrammétrie notamment utilisée dans le milieu des effets spéciaux, ce qui ouvre la voie à des applications industrielles dans l’avenir.
Un jeu d’ombres et de lumière
Vue de Manarola
Photo prise sur le site dans la journée
Vue de Manarola
La même après traitement
Produire une modification réaliste des ombres portées est un défi majeur lorsque l'on cherche à réaliser un changement d’éclairage. La méthode est capable d’enlever celles-ci et de les modifier pour simuler une autre direction d’éclairage. Les auteurs guident leur algorithme en utilisant la 3D et en appliquant des méthodes utilisées dans les jeux vidéo pour le calcul des ombres. Malheureusement ces méthodes ne sont pas directement applicables : « La 3D que nous obtenons n’est pas suffisamment bonne pour enlever et créer des ombres réalistes, mais elle donne néanmoins une base solide. C’est là qu’intervient le réseau de neurones, nous lui avons appris à corriger les erreurs générées par la mauvaise qualité de la 3D », commente Julien. Pour réaliser cet apprentissage, leur intelligence artificielle avait besoin d’exemples de lieux sous de nombreux éclairages différents, pour estimer les transformations. Ce type de données étant compliqué et coûteux à acquérir, ils ont donc décidé d’utiliser des méthodes de rendu 3D très réalistes qui simulent la physique de la lumière à la place de vraies photos. Ils ont, alors, pu obtenir assez de données pour que le réseau de neurones apprenne à changer l’éclairage malgré la mauvaise 3D.
Ce travail a été financé par le projet européen H2020 EMOTIVE et le projet ERC Advanced Grant FUNGRAPH.
Pour plus de détails, cliquez ici.
Avant la publication de ces travaux, la collaboration entre l’équipe GraphDeco d’Inria et Adobe Research a déjà donné lieu à de nombreuses publications communes depuis 2009.
Téléchargez le communiqué de presse
Laurence Goussu
- Tél : 06 81 44 17 33