Dans le cadre du pilier "Excellence Scientifique" du programme Horizon 2020 de l'UE pour la recherche et l'innovation, les bourses ERC Advanced Grant sont allouées à des chercheurs et chercheuses seniors, reconnus comme leaders dans leur domaine et dont le projet de recherche permet de faire reculer notablement les frontières actuelles de la science. Rencontre avec le nouveau lauréat qui nous présente ses recherches et son projet.
Quel a été votre parcours avant d’intégrer Inria ?
Après un baccalauréat mathématiques et technologies et des classes prépa techniques, j'ai intégré l'École polytechnique en 1989.
Je programmais déjà depuis longtemps, mais j'y ai découvert le côté scientifique de l'informatique, notamment avec plusieurs professeures et professeurs d'Inria. C'est ce qui m'a incité à choisir de continuer vers la recherche par un master et une thèse en informatique. J'ai ensuite effectué un postdoc au MIT au laboratoire d'intelligence artificielle, avant d'intégrer Inria comme chargé de recherche en 1998.
Dans quel domaine de recherche travaillez-vous chez Inria ?
Je m'intéresse à l'analyse des formes, et en particulier à la variabilité de celle des organes dans le corps humain, un domaine qu'on appelle l'anatomie computationnelle. Les problèmes mathématiques qui sont soulevés par ces statistiques morphologiques sont particulièrement intéressants car on ne peut pas additionner ou soustraire des formes entre elles.
C'est pourquoi il faut réinventer les méthodes statistiques pour travailler dans ces espaces non linéaires. Les applications potentielles en médecine sont nombreuses car ceci permet d'encoder la connaissance a priori sur l'anatomie normale ou anormale.
En quoi consiste votre projet « G-Statistics» , retenu par l'ERC ?
G-Statistics vise à explorer les conséquences de la non-linéarité des espaces de données sur l'estimation statistique grâce à leur géométrie. On sait déjà faire des estimations de localisation (moyenne, médiane), de concentration (matrice de covariance) et des tests statistiques simples dans des variétés Riemanniennes. Des résultats sont aussi connus pour certaines classes d'espaces moins lisses, les espaces de longueur à courbure négative. L'un des objectifs des statistiques géométriques est d'unifier ces méthodes et de les étendre à d'autres structures géométriques au-delà du Riemannien qui présentent des singularités et des changements de dimension, notamment les espaces à connexion affine, les espaces quotients ou stratifiés. Ces structures géométriques apparaissent dans des applications pratiques en sciences de la vie comme par exemple avec les difféomorphismes (transformations inversibles de l'espace) agissant sur les images utilisées en recalage d'images médicales, les arbres phylogéniques ou les espaces de formes.
L'un des points-clés auquel je veux m'intéresser est l'impact de la courbure, des singularités et des stratifications sur la qualité des estimations, en particulier en régime non asymptotique car en pratique le nombre de données est toujours fini. La courbure influence par exemple la concentration d'une estimation et son gradient peut induire un biais. Lorsque les données sont suffisamment concentrées par rapport à la courbure, ces modifications par rapport aux statistiques euclidiennes ne sont pas forcément très importantes, mais lorsqu’on s'approche d'une singularité, la courbure peut devenir infinie et son impact devient drastique.
Un second aspect concerne la réduction de la dimension des données. On suppose souvent que les données en grande dimension vivent sur une variété de dimension faible (the manifold hypothesis ). Cette hypothèse est toutefois souvent fausse car la dimension optimale dépend de l'échelle à laquelle on approxime les données et des stratifications peuvent apparaître. Je pense qu'il est plus intéressant de construire une séquence de sous-espaces emboités de dimension croissante qui approche de mieux en mieux les données et de choisir a posteriori, s'il y a lieu, la dimension. La notion géométrique naturelle qui encode cette structure est celle des variétés drapeaux pour des sous-espaces linéaires. J'ai récemment montré que l'analyse en composante principale, qui est ubiquitaire en statistiques appliquées, pouvait être reformulée comme une optimisation sur cet espace de drapeaux. Le principe peut aussi être étendu à des variétés avec des sous-espaces non linéaires plus complexes.
Enfin, un troisième objectif sera de montrer l'efficience de ces méthodes sur des applications choisies dans le domaine des sciences de la vie. L'étude de la variabilité des formes anatomiques grâce à des images médicales est bien sûr une application de choix pour cela, mais on considérera aussi d'autres domaines.
Pourquoi avoir choisi de vous intéresser à ce sujet?
Avec l'imagerie médicale, je travaille depuis ma thèse à l'intersection des applications en médecine, de l'informatique et de plusieurs domaines en mathématiques, notamment la géométrie et les statistiques. J'ai développé depuis plus de quinze ans chez Inria au sein de l’équipe-projet Epidaure, puis Asclepios et maintenant Epione, des méthodes de recalage d'images médicales et de morphométrie qui m'ont permis d'explorer le côté applicatif et de percevoir les limites des méthodes actuelles. Par exemple, pour aller plus loin dans la modélisation des formes complexes, il faut considérer des changements de topologie. Un tel changement correspond à une singularité dans l'espace de forme avec une stratification. Mais le comportement des estimations statistiques est très mal connu dans de telles conditions. Des collègues ont par exemple découvert récemment que la moyenne est attirée par la singularité dans certaines conditions (moyenne collante), alors que nous avons montré avec les thèses récentes de Nina Miolane et de Loic Devillier que celle-ci peut être répulsive dans d'autres conditions. Il convient donc de mieux comprendre l'interaction de la géométrie avec l'estimation statistique pour pouvoir découvrir des invariances approximatives (des lois empiriques) dans les données extrêmement variables et très bruitées des sciences de la vie. C'est ce qui m'a conduit à m'intéresser aux aspects plus fondamentaux.
Cette bourse représente une extraordinaire reconnaissance par la communauté scientifique du domaine des statistiques géométriques tout entier et de la qualité de la recherche chez Inria.
Qu’est-ce que cette bourse représente pour vous ?
Le taux de sélection est tel que de nombreux projets ERC excellents ne sont pas retenus, malgré un système de sélection par les pairs qui me semble particulièrement équitable. Cette bourse prestigieuse représente donc tout d’abord une extraordinaire reconnaissance par la communauté scientifique. Au-delà de mon travail, je pense que c’est une reconnaissance du domaine des statistiques géométriques tout entier et de la qualité de la recherche chez Inria.
Plus prosaïquement, la bourse représente aussi une liberté extraordinaire dans ma recherche. La plupart des sources actuelles de financement de la recherche nécessitent de justifier la recherche théorique amont par des applications à court terme. Grâce à cette bourse, j’ai la possibilité de me consacrer entièrement à la science sur des sujets théoriques fondamentaux sans devoir les justifier. Je pense en effet qu'il est important de produire des connaissances indépendamment de leur utilisation si l'on veut induire des ruptures conceptuelles ou technologiques.
Bien sûr, je vais illustrer mes développements théoriques par des applications qui mettront en évidence l'intérêt de la méthodologie. Mais c'est la rencontre de ces connaissances scientifiques avec les besoins sociétaux qui fournira peut-être a posteriori le déclic de l'innovation. Ne pas s'en préoccuper a priori représente une vraie liberté pour la recherche.
Comment comptez-vous utiliser ce financement ?
La bourse me permettra de recruter des doctorantes et doctorants et des jeunes chercheurs et chercheuses pour travailler sur les sujets précédemment évoqués. J'ai aussi prévu d'organiser des séminaires pour inviter les chercheurs et chercheuses du domaine et des ateliers-conférences pour faire le point sur les avancées au cours du projet.
Y a-t-il d’autres pistes de recherche que vous voudriez explorer dans l’avenir ?
Oui, bien sûr. Mieux comprendre l'interaction entre la géométrie et les statistiques pourrait permettre d'expliquer la déraisonnable efficacité des méthodes d'apprentissage automatique actuelle, et a contrario d'en comprendre les limitations. Je suis aussi intéressé par l'information quantique car cela repose sur des méthodes géométriques profondes. De nombreux autres domaines présentent des applications à la croisée des statistiques et de la géométrie.
Mais j'ai pour l'instant un programme de recherche déjà bien chargé pour les cinq ans à venir avec le projet G-Statistics !
Cinq dates clés dans le parcours de Xavier Pennec
- 1996: Thèse en informatique de l'École polytechnique
- 1997: Postdoctorat au MIT
- 1998: Rejoint Inria comme chargé de recherche
- 2007: Devient directeur de recherche
- 2017: Obtient l'Advanced Grant de l'ERC
Xavier Pennec enseigne également à l’ENS Cachan, à l’École centrale, et à l'université Côte d’Azur
En savoir plus
- Cours au Collège de France
- site personnel de X Pennec
- site de l'équipe Epione