Science des données

Sophie Dabo déploie les statistiques dans des espaces infinis

Date:
Mis à jour le 18/10/2024
Depuis plus de 20 ans, Sophie Dabo développe des approches statistiques pour le traitement de données complexes : l’analyse de données fonctionnelles. La mathématicienne a contribué à faire de cette science, à l’origine très théorique, un outil aux applications nombreuses, particulièrement dans le domaine de la santé.
Sophie Dabo
© Claire-Marie Régent

 

Biologie, météo, chimie, ou économie : toutes ces disciplines utilisent aujourd’hui l’analyse de données fonctionnelles. Pourtant, il y a vingt ans, rien ne permettait de prévoir l’essor de cette approche statistique, consistant à étudier des paramètres variables dans le temps et/ou dans l’espace. Les données auxquelles elle s’intéresse sont des fonctions mathématiques définies dans des espaces de dimension éventuellement infinie, ou de grandes dimensions. Sophie Dabo, mathématicienne, a contribué à la diffusion en France de cette méthode. Professeure des universités et membre de l’équipe-projet Modal du Centre Inria de l’Université de Lille (commune au laboratoire Paul Painlevé – Université de Lille), elle s’est passionnée pour cette discipline dès le début des années 2000.

Son parcours démarre au Sénégal : « À l’école, j’aimais toutes les matières », se souvient-elle. Mais en seconde, quand vient le moment de choisir une spécialité, les sciences l’emportent sur la littérature. « J’adorais résoudre des problèmes, je ne faisais que ça ! Après mon bac, j’ai donc naturellement poursuivi vers les mathématiques », retrace la chercheuse. Pendant deux ans, elle étudie à l’université Gaston Berger de Saint Louis, avant de poursuivre son cursus en France, à l’université Paris-V.

Arrivant d’Afrique, la jeune femme craint de ne pas avoir un niveau suffisant. En réalité, elle a déjà assimilé l’équivalent d’une licence : « J’ai réalisé que j’avais eu une excellente formation au Sénégal », rapporte-t-elle. « Pour l’informatique, en revanche, nous n’avions qu’une machine pour dix. Nous écrivions nos algorithmes sur papier. C’est donc en France que je me suis entrainée à taper très vite et à programmer ! » En raison de son avance, ses professeurs l’incitent à suivre des modules supplémentaires. C’est là qu’elle prend goût aux statistiques.  En 1999, après une double maitrise et un DEA, elle choisit de se lancer dans une thèse sur les statistiques mathématiques pour données de très grande dimension.

Un sujet trop abstrait ?

Verbatim

C’était le début de l’ère des données fonctionnelles. Les tout premiers articles dataient des années 1940, mais ce n’est qu’à la fin des années 1990 que le sujet a pris de l’ampleur.

Auteur

Sophie Dabo

Poste

Professeure des universités, membre de l’équipe-projet Modal

Parmi une communauté encore réfractaire à cette approche, perçue comme trop abstraite, seuls quelques chercheurs et chercheuses  d’universités comme Toulouse 3, Paris 6 et MacGill à Montréal travaillaient sur le sujet. À l’époque, les quelques applications concernent des paramètres météorologiques, comme des profils de température ou de pression.

La méthode classique pour étudier leurs courbes d’évolution consistait à les discrétiser, c’est-à-dire en extraire des points à intervalles réguliers. Les informations entre ces points sont alors perdues. L’analyse de données fonctionnelles reconstruit cette information en trouvant les lois qui décrivent l’évolution de la courbe. « La difficulté vient du fait que les variables étudiées évoluent dans des espaces mathématiques de dimension souvent infinie », précise Sophie Dabo. Sa thèse est théorique : elle travaille uniquement à partir de données synthétiques. « À la fin, j’étais frustrée de ne pas avoir utilisé de données réelles. »

En 2002, doctorat en poche, elle cherche un premier poste. Mais sa spécialité est encore souvent perçue comme trop théorique, voire inutile ou irréaliste. À l’époque, la mathématicienne Anne-Françoise Yao travaille elle aussi sur ce sujet : « Ces reproches étaient compréhensibles », analyse-t-elle. « Nous non plus, nous ne savions pas où nous allions avec cette méthode dont les applications n’étaient pas évidentes. Mais cela nous plaisait de faire autre chose que des statistiques classiques ! »

Des applications nombreuses

Lorsqu’elle rejoint l’Université de Lille, Sophie Dabo aborde de nombreux sujets : l’économie, discipline première de son nouveau laboratoire, mais aussi l’environnement ou l’écologie. Sa curiosité la pousse à élargir son champ d’applications à travers de nouvelles collaborations. « Nous avions des sujets en commun, et nous avons beaucoup réfléchi ensemble à notre façon d’avancer dans ce domaine », se souvient Anne-Françoise Yao. À partir de données en géochimie, les deux jeunes chercheuses travaillent sur des applications spatiales des données fonctionnelles. Il s’agit alors de traiter des images ou des régions géographiques : des applications plus complexes que les courbes. Ces travaux communs aboutissent alors à plusieurs publications.

D’autres sujets ne tardent pas à émerger : « Un de mes collègues de l’université étudiait l’impact des délais de consultation et de facteurs géographiques sur la guérison de certains cancers », explique Sophie Dabo. L’application spatiale de l’analyse de données fonctionnelles y trouve tout son sens : quels sont les facteurs de risque, de récidive ou de survie en fonction des zones géographiques ? « Il est difficile d’établir des relations de dépendance dans l’espace », commente la statisticienne. Elle analyse l’environnement des patients, et met en évidence les risques liés à la proximité de certaines industries, ou à l’éloignement des hôpitaux. Ces travaux la conduisent à s’impliquer dans la création d’Oncolille, l’Institut de recherches interdisciplinaires en cancérologie. Elle y dirige maintenant l’équipe de mathématiques.

Depuis, la santé tient une place centrale dans ses recherches. « Alors que je présentais les travaux de mon équipe lors d’un colloque en 2017, Sophie nous a proposé son aide », se souvient Dominique Collard, physicien et chercheur au CNRS. « Nous avions développé un microsystème pour l’identification des cellules cancéreuses par la mesure de leurs caractéristiques électriques et mécaniques. » Sophie Dabo suggère d’utiliser l’analyse de données fonctionnelles. 

Verbatim

Nous avions des milliers de cellules à caractériser, chacune associée à une dizaine de paramètres. Et nous sommes parvenus à déterminer leur nature cancéreuse avec plus de 90% de certitude, ce qui aurait été impossible sans cette approche.

Auteur

Dominique Collard

Poste

Physicien et chercheur au CNRS

Ces résultats seront bientôt valorisés sous la forme d’une startup, en vue de commercialiser un outil de diagnostic.

Un impact direct sur le soin

En 2021, Sophie Dabo mène l’action exploratoire PATH, portée conjointement par l’équipe-projet Modal et le CHU de Lille. Il s’agit de modéliser le parcours patient, constitué de données de natures très diverses : valeurs numériques, imagerie ou encore comptes-rendus, parfois sur papier. « PATH nous a permis de rejoindre le consortium, en vue de modéliser le parcours des enfants et adolescents atteints de tumeurs cérébrales », annonce la chercheuse. Le projet a également débouché sur le développement d’une brique technologique pour QuantiHealth, une startup proposant une application pour l’accompagnement au quotidien des personnes diabétiques, et fourni une base à la startup Henddu, qui travaille à l’analyse de la qualité de l’air.

L’analyse de données fonctionnelles a pris son essor, portée par l’augmentation des capacités de calcul des ordinateurs, mais aussi « par des scientifiques visionnaires qui en ont vu le potentiel », analyse Sophie Dabo. « Ce domaine a beaucoup évolué », ajoute Anne-Françoise Yao. « Les applications ont soulevé de nouvelles questions, auxquelles il nous faut maintenant trouver des réponses théoriques. » Loin d’être épuisée, la thématique réserve encore de nombreux sujets à explorer !

Engagée pour les mathématiques en Afrique

« Après avoir reçu une excellente formation au Sénégal, je me suis demandé comment je pouvais à mon tour aider les jeunes de là-bas, très motivés et compétents », raconte Sophie Dabo. À travers des conférences et l’encadrement de thèses, elle introduit les statistiques fonctionnelles dans son pays d’origine, mais aussi en Mauritanie, en Algérie et au Gabon. De fil en aiguille, elle intègre le comité des pays en développement de la Société Européenne de Mathématiques, qu’elle dirige pendant quatre ans, et le Centre International de Mathématiques Pures et Appliquées (CIMPA), une association qui promeut la recherche en mathématiques dans les pays en développement. « J’y ai été en charge de plusieurs programmes de financement », précise-t-elle.

Impliquée contre inégalités de genre en mathématiques, elle exporte les Journées filles, maths et informatique au Sénégal : là-bas aussi, les stéréotypes compliquent le parcours des jeunes femmes qui souhaitent s’investir dans une carrière en scientifique. « Je veux leur dire de n’écouter que leur volonté ! », plaide Sophie Dabo. Tous ces engagements ont porté leurs fruits : « Beaucoup de jeunes que j’ai accompagnés sont devenus professeurs. Ils avaient juste besoin d’un coup de pouce, et c’est ce dont je suis le plus fière ! »