MissingBigData : faire collaborer mathématiques et informatique pour mieux résoudre le problème des données manquantes

Date:
Mis à jour le 08/04/2021
Julie Josse, professeure de statistiques à l’École polytechnique et chargée de recherche au Centre de mathématiques appliquées (CMAP), et Gaël Varoquaux, chercheur au sein de l’équipe Parietal du centre Inria Saclay - Île-de-France, ont décidé d’unir leurs compétences pour s’attaquer ensemble aux problèmes des données manquantes et proposer de nouvelles méthodes d’aide à la décision. Le projet MissingBigData a été sélectionné par l’Institut DATAIA dans le cadre de son premier appel à projets recherche. Comment est née cette collaboration ? Quels sont les enjeux de leur recherche interdisciplinaire ? Julie et Gaël nous présentent MissingBigData .

Deux sujets mais une même problématique

Julie Josse travaille avec le groupe Traumabase qui recense les données de plus de 15 000 patientes et patients admis pour traumatisme grave, de la prise en charge hospitalière jusqu’à la sortie de réanimation. Les traumatismes graves représentent la cause principale de décès des sujets jeunes et une cause importante de handicaps lourds. L’impact socio-économique est majeur. La prise en charge de ces patientes et patients est donc un réel enjeu de santé publique. L’objectif de la recherche de Julie est d’analyser les données collectées par Traumabase pour fournir des outils d’aide à la décision aux urgentistes, de prévoir par exemple les chocs hémorragiques dès la prise en charge du patient ou la patiente par le SAMU pour qu’une équipe médicale adaptée l’accueille à son arrivée à l’hôpital. Mais Julie est confrontée à un problème de données manquantes : « à partir des données, je regarde si je peux créer des modèles pour prévoir correctement un choc hémorragique. Sauf que mes données proviennent de plein de sources différentes, de plusieurs hôpitaux, qui n’ont pas forcément les mêmes pratiques. »

De son côté, Gaël Varoquaux travaille sur l’imagerie médicale et son utilisation notamment en épidémiologie. Dans ce cadre, Gaël analyse de grands volumes de données de différents types (imagerie médicale, état de santé, qualité de vie de la personne…) dont la qualité n’est pas uniforme. Il utilise en particulier les données collectées par UK Biobank qui suit la santé et le bien-être de 500 000 participants et participantes volontaires dans le but d’améliorer la prévention, le diagnostic et le traitement d'un large éventail de maladies graves et potentiellement mortelles. Gaël s’intéresse particulièrement à la neuropsychiatrie et aux facteurs de risque d’une maladie mentale (schizophrénie, autisme, dépression, etc…). Là aussi, se pose le problème de données manquantes qui freinent le développement de modèles prédictifs de confiance.

Comment répondre à des questions causales quand il nous manque des données ?

Gaël nous explique : « Si on compare les gens qui meurent à l’hôpital et ceux qui ne meurent pas à l’hôpital on peut conclure que l’hôpital est très dangereux car il y a beaucoup de gens qui meurent là-bas. On se rend bien compte qu’il y a là une erreur. Il faut mathématiquement compenser ce biais de sélection. Le problème c’est qu’on ne sait plus faire ça quand il y a des données manquantes notamment informatives. » Le projet MissingBigData a pour objectif d’aborder le problème sous un autre angle et de proposer de nouveaux modèles plus puissants à partir de plus grands échantillons de données pour imputer des valeurs manquantes . « Pour éviter de biaiser les conclusions, nous étudierons l'imputation multiple et les conditions sur la dépendance dans les données. Notre projet vise à diminuer les facteurs de risque en matière de santé notamment avec la prédiction de meilleurs résultats et l'identification des facteurs de risque de résultats indésirables. Nous recherchons une solution opérationnelle, de la méthodologie à la mise en œuvre, qui intègre la diversité et le volume des données […] en considérant plusieurs types de données manquantes. » (extrait du projet MissingBigData )

Des applications dans le domaine de la santé mais pas seulement

L’objectif de ce chercheur et cette chercheuse est de produire un modèle générique, des méthodes applicables dans d’autres champs que celui de la santé. « Pour valoriser notre travail nous ferons du développement logiciel mis à disposition de la communauté. Notre problématique de recherche est motivée par l’application, dans un but pédagogique, que tout le monde pourra répliquer », souligne Gaël.

Des compétences complémentaires

L’interdisciplinarité de cette équipe va permettre à un étudiant ou une étudiante en thèse financé par l’institut DATAIA de partager deux cultures d’équipes, de faire des présentations devant des publics différents, de communiquer avec des gens qui ont des langages différents : les mathématiciens et mathématiciennes de l’École polytechnique et les informaticiens et informaticiennes en machine learning chez Inria. « Les communautés ont du mal à se comprendre alors que nous avons les mêmes problèmes et des outils complémentaires », remarque Julie Josse. Cet appel à projet va permettre à ces communautés d’avancer avec un but commun : la réutilisabilité et le transfert de bonnes pratiques pour faire de la science participative. Pour accompagner Julie et Gaël, l’équipe MissingBigData sera composée de Nicolas Prost, étudiant en thèse, d’un ingénieur ou une ingénieure dont le recrutement est en cours, d’Erwan Scornet, maître de conférence au département de mathématiques de l’École polytechnique et responsable du Master IA, d’Alexandre Gramfort, chercheur au centre Inria – Saclay-Île-de-France et de Balázs Kégl, chercheur au CNRS et responsable du Center for Data Science Paris-Saclay.