XGAN vise à mieux comprendre la boîte noire des GAN pour la génération de vidéos. XGAN propose des stratégies pour interpréter l'espace latent pendant la conception d'architectures interprétables et par l'analyse de fonctions symétriques appliquées en même temps sur la représentation latente et les patches des images générées en sortie.
Le titre complet du projet est "Interpretable Representation Learning for Video Generative Adversarial Networks" ou, en français "Apprentissage par représentation interprétable pour les réseaux d'adversaires génératifs vidéo".
Dans cette action exploratoire, nous nous consacrerons spécifiquement à répondre à la question suivante : « Peut-on interpréter les représentations apprises par les GANs vidéo ? »
Malgré les progrès remarquables des réseaux d'adversaires génératifs (GAN), ces réseaux fonctionnent actuellement comme des boîtes noires.
XGAN vise à percer la boîte noire des GAN pour la génération de vidéos en proposant des stratégies pour interpréter l'espace latent dans les domaines suivants :
- la conception d'architectures interprétables ;
- l'analyse des fonctions symétriques en entrée et en sortie de la génération basée sur les patchs.
La génération de vidéos est un problème nouveau et difficile, et le chercheur principal a mené l'un des rares efforts européens pour relever ce défi. L'exploration de l'interprétabilité et de l'explicabilité des GAN représente une question nouvelle et fondamentale.
Le petit nombre de recherches existant sur la génération de vidéos s'explique en partie par les vastes ressources de calcul nécessaires, auxquelles nous avons eu accès grâce à GENCI (Grand équipement national de calcul intensif).
En s'écartant des recherches précédentes, XGAN explorera l'interprétabilité et l'explicabilité des GAN, qui représentent des questions nouvelles et fondamentales, et qui comportent donc un risque élevé.
Alors que l'existence de symétries est donnée pour les patches, et qu'elles peuvent être analysées mathématiquement, il est intéressant de savoir si des symétries au-delà de la transformation euclidienne existeront. Il s'agit d'une question ouverte difficile, dont la réponse permettra de concevoir des modèles plus interprétables.
Au sein de XGAN, Edouard Oyallon du CNRS, LIP6, sera un collaborateur clé, avec qui nous analyserons les fonctions symétriques en entrée et en sortie de la génération par patchs.
Ses recherches portent sur l'apprentissage automatique et sur les fondements mathématiques des techniques d'apprentissage profond.
Antitza Dantcheva
Chargée de recherche, équipe Stars
2004, route des Lucioles
BP93
,
06902 Sophia Antipolis
Article - Tutoriel de Razvan V. Marinescu, Medical Vision Group, Massachusetts Institute of Technology