Informatique graphique

Créer des scènes 3D en temps réel bluffantes ou la percée du 3D Gaussian splatting

Date:
Mis à jour le 22/10/2024
Associant des méthodes de pointe en informatique graphique et la méthodologie du machine learning, le procédé du 3D Gaussian splatting développé par l’équipe GraphDeco et présenté à la conférence SIGGRAPH 2023, a remporté un Best Paper Award. Il permet le rendu en temps réel de scènes photoréalistes entrainées à partir d'un petit nombre d'images. C'est une avancée majeure sur l'état de l'art jusqu'ici dominé par NeRF de Google et InstantNGP de Nvidia, avec une méthode innovante à la fois plus rapide et plus précise. L’ouverture du code en ligne à des fins non commerciales a rapidement suscité l’enthousiasme des startups du graphisme et des jeux vidéo, ouvrant la voie à des collaborations commerciales sous licence.

De la vision par ordinateur à l’informatique graphique

À l’origine de ce domaine de recherche il y a plus de 25 ans, les travaux d’Olivier Faugeras sur la vision par ordinateur qui a posé les fondements de la théorie mathématique du fonctionnement de la perception visuelle humaine et la startup Realviz. Une nouvelle étape a été franchie il y a quinze ans avec l’automatisation et les algorithmes automatiques de placement des caméras pour un rendu 3D et les recherches de Jean Ponce pour créer des maillages approximatifs en densifiant les points. Ces travaux se sont poursuivis avec de meilleures solutions pour générer des maillages texturés, avec notamment les travaux de Jean-Daniel Boissonnat et de la startup Acute 3D.

En 2019 arrive la révolution du NeRF (Neural Radiance Field ou "champs de radiance neuronaux") qui pour la première fois utilise utilise des outils d’apprentissage pour représenter une scène avec Mip-NeRF 360 (Google Research) et en 2022 la méthode InstantNGP de Nvidia mais dont la vitesse d'affichage reste limitée à 15 images par seconde.

L’équipe GraphDeco

L’équipe de recherche GraphDeco (et son prédécesseur REVES) a développé une série de résultats au cours des 15 dernières années en s'appuyant sur les travaux de vision par ordinateur, en introduisant notamment des méthodes de rendu basé sur l'image qui permettent la synthèse de nouvelles vues 3D en combinant les informations des photographies données en entrée avec la géométrie 3D de reconstruction approximative.

Dans le cadre de l'ERC Advanced Grant FUNGRAPH de George Drettakis, des méthodologies d'apprentissage automatique ont été utilisées pour développer plusieurs nouvelles solutions pour une nouvelle synthèse de vues. Une idée clé développée dans le doctorat de Georgios Kopanas était de proposer un rendu différenciable basé sur des points pour représenter les champs de radiance, avec une meilleure qualité et une meilleure vitesse de rendu que les NeRF. Ce travail a donné lieu à deux publications au Eurographics Symposium on Rendering (2021) et à l'ACM SIGGRAPH Asia (2022), posant les bases de la solution 3D Gaussian splatting.

En 2023, la nouvelle méthode du 3D Gaussian splatting présentée par Georgios Kopanas, Bernhard Kerbl et George Drettakis de l’équipe de recherche GraphDeco, en collaboration avec Thomas Leimkühler du Max Planck Institut, permet d’égaler en 30 minutes la qualité de rendu de la méthode de Google et celle de Nvidia en 7 minutes. Contrairement aux méthodes rapides précédentes, en poursuivant l’entraînement, la qualité d’image continue à s’améliorer avec un rendu au-delà de 100 images par seconde, ce qui n’a pas manqué de susciter beaucoup intérêt dans la communauté du graphisme et des entreprises du domaine de l’audiovisuel et des jeux vidéo sont sur les rangs pour tester et développer leurs solutions sur la base de cette technologie innovante.

Les lauréats

I-Laureats-Siggraph-2023-GraphDeco-Sophia

En plus du financement principal des ces travaux par la bourse ERC Advanced Grant FUNGRAPH de George Drettakis, ces travaux de recherche ont été également soutenus par ADOBE, l'Université Côte d’Azur au travers de l’infrastructure OPAL et les ressources de calcul HPC de GENCI–IDRIS.

La méthode du 3D Gaussian splatting

La méthode du 3D Gaussian splatting propose une nouvelle façon de représenter les champs de radiance qui non seulement permet d'obtenir des résultats de pointe en matière de qualité d'image, mais aussi un rendu en temps réel à plus de 100 images par seconde, une optimisation rapide avec une empreinte mémoire raisonnable et une intégration aisée dans les moteurs graphiques. Elle permet le rendu en temps réel de scènes photoréalistes apprises à partir d'un petit  nombre d'images.

Les méthodes de champ de radiance ont récemment révolutionné la synthèse de nouvelles vues de scènes capturées à l'aide de plusieurs photos ou vidéos. Cependant, l'obtention d'une qualité visuelle nécessite encore des réseaux neuronaux coûteux à entraîner, tandis que les méthodes récentes plus rapides sacrifient inévitablement la vitesse à la qualité. Pour des scènes complètes et non limitées (plutôt que des objets isolés) et un rendu en résolution 1 080p aucune méthode actuelle ne peut atteindre des taux d'affichage en temps réel.

Trois éléments clés permettent d'atteindre une qualité visuelle de pointe tout en maintenant des temps d'apprentissage et une qualité d'image compétitifs et surtout permettre une synthèse de haute qualité en temps réel (100 images par seconde) de nouvelles vues à une résolution 1 080p.

Comme l’explique Georgios Kopanas, "tout d'abord, à partir de points épars produits lors de la calibration de la caméra, nous représentons la scène avec des gaussiennes 3D qui préservent les propriétés souhaitables des champs de radiance volumétrique continue pour l'optimisation de la scène tout en évitant les calculs inutiles dans l'espace vide. Ensuite, nous effectuons une optimisation et un contrôle de la densité entrelacés des gaussiennes 3D, notamment en optimisant la covariance anisotrope (avec un côté très fin quand l’autre est très petit) afin d'obtenir une représentation précise de la scène. Troisième étape, nous développons un algorithme de rendu rapide tenant compte de la visibilité qui prend en charge l'anisotropie et qui accélère l'apprentissage et permet un rendu en temps réel. La qualité visuelle de notre méthode est égale à l'état de l'art et permet le rendu en temps réel sur plusieurs jeux de données habituellement utilisés par des méthodes concurrentes".

Les secrets de la méthode

  • Capter les détails de façon plus efficace tout en gardant l'efficacité du GPU
  • Densifier le nombre de points par un nouvel algorithme
  • Paralléliser le rendu par des méthodes spécialisées pour accélérer sur le GPU

Les méthodes précédentes utilisaient le Gaussian splatting sans savoir ni densifier les points ni avoir de rendu rapide.

Concrètement il faut plusieurs centaines de milliers voire des millions de points pour un rendu de cette qualité.

Verbatim

Techniquement parlant, notre méthode n’est pas du machine learning (apprentissage machine) stricto sensu mais la méthode se base sur des techniques de machine learning pour s’entraîner et améliorer la qualité du rendu.

Auteur

George Drettakis

Poste

Responsable de l'équipe GraphDeco

Un outil de pointe à haut potentiel

En utilisant 200 photos pris avec un appareil classique, à un taux de rafraîchissement de 105 images par seconde, soit la qualité des images des jeux vidéo, le résultat permet de donner l’illusion de se promener dans la vidéo. Mieux encore, si on zoome, on aperçoit précisément les détails plus fins comme par exemple les rayons de la roue du vélo avec un excellent rendu.

Le code source de grande qualité a été mis en ligne sous Linux et Windows via le Github ainsi que les exécutables et les instructions détaillées. Chacun peut les utiliser et tester même sans grandes connaissances techniques préalables.

Les domaines d’application potentiels sont extrêmement variés, allant du commerce en ligne ou du domaine des jeux vidéo et des films à effets spéciaux (filmer un lieu puis projeter cet environnement sur le sol et le mur afin de disposer d’un décor ultra réaliste) jusqu’aux travaux publics (inspecter à distance diverses constructions comme des ponts, ou des viaducs pour en vérifier la sécurité dans des endroits peu accessibles) ou encore la préparation du démantèlement de sites dangereux, ou la reconstruction de sites détruits par des incendies, tout cela avec la projection en temps réel d’images 3D très naturelles.

Pour aller plus loin sur le sujet

Témoignages d'utilisateurs

Volinga est une société espagnole créée en 2023 dont la mission est de fournir le meilleur ensemble d'outils de capture volumétrique 3D aux professionnels travaillant dans la production, la diffusion, les événements en direct et les expériences immersives de films et d’émissions de télévision.

Secteur d'activité : média et divertissement.

Utilisation de la technologie 3D Gaussian splatting : 3D Gaussian splatting permet à Volinga d'offrir aux professionnels du M&E une création d'environnements 3D photoréalistes en moins d'une heure à moindre coût, pour la prévisualisation (préproduction), l'ICVFX (production) ou les VFX traditionnels (postproduction).

AniML est une startup créée en 2022 par deux serial entrepreneurs du monde de la 3D Pierre Pontevia et Rémi Rousseau entre la France et le Canada.

Secteur d'activité : e-commerce.

Utilisation de la technologie 3D Gaussian splatting : AniML développe une application Doly permettant de scanner des produits et les mettre en scène dans des vidéos en contexte. Elle exploite pour cela la technologie 3D Gaussian splatting qui permet d'obtenir un rendu photoréaliste des objets capturés par les utilisateurs.

IR-Entertainment Ltd est spécialisée dans la numérisation des êtres humains. Leur objectif est de fournir des modèles numériques réalistes destinés à être utilisés dans divers secteurs du divertissement et de la recherche.

Secteur d'activité :  divertissement numérique, gaming et recherche.

Utilisation de la technologie 3D Gaussian splatting : Des techniques avancées telles que le 3D Gaussian splatting ont considérablement amélioré la capacité d’Infinite Realities à traiter et à restituer des images humaines très détaillées. Ces améliorations sont idéales pour une utilisation dans des secteurs tels que le gaming, le cinéma et la recherche.