Quelle est la genèse de votre projet ?
Grâce à l’application de télésuivi Covidom, l’AP-HP disposait d’une importante quantité de données dont ils souhaitaient faire quelque chose. La difficulté, c’est qu’il s’agissait de données extrêmement confidentielles. Deux démarches ont donc été mises en place avec Inria dans le cadre du projet Covidom Stat. D’un côté, seulement quatre ingénieurs Inria ont eu accès aux données brutes. Même si ces données sont pseudonymisées (il n’y a aucun nom), cela peut poser des problèmes majeurs de confidentialité. C'est pourquoi, en parallèle, des données synthétiques ont été créés. Générées à partir des données originales et qui en conservent les propriétés statistiques tout en respectant strictement l’obligation de confidentialité et d’anonymat, elles ont été mises à disposition de trois équipes Inria – Modal, Tau et Statify -, afin que ces équipes puissent chacune identifier ce qu’elles pouvaient apporter en fonction de leur expertise et du format des données.
Porteurs :
Christophe Biernacki, équipe-projet Modal, coordonnateur du projet Covidom Community
Jill-Jênn Vie, équipe-projet Scool, responsable scientifique du projet EIT Health « Covidom Community »
Quentin Grimonprez
Arthur Mensch
Victor Alfonso Naya
Issam Ali Moindjie
Florence Forbes, équipe-projet Statify
Marc Schoenauer et Michèle Sebag, équipe-projet Tau
Partenaire : AP-HP
#IA #données
Comment se développe-t-il aujourd'hui et quels sont ses objectifs ?
Les ingénieurs qui travaillent sur les données brutes ont élaboré un programme permettant de prédire les arrivées de patients à l’hôpital, afin d’anticiper les surcharges éventuelles des services hospitaliers. D’autres développements sont en cours avec les épidémiologistes de l’AP-HP.
Quant aux équipes de recherche, elles vont présenter très prochainement aux médecins de l’AP-HP ce qu’elles sont capables de faire à partir des données synthétiques. Ce rendu illustrera la diversité et la complémentarité des recherches génériques menées dans les équipes mais pouvant s’appliquer aux données médicales considérées ici. Il s’agira en particulier de contribuer au niveau exploratoire (comprendre l’interaction entre les mesures cliniques, identifier des typologies de patients) et au niveau prévisionnel (estimation du risque de Covid-19 d’un patient en l’absence de test disponible, prévision d’évolution de la maladie).
Sur ce projet, une difficulté rencontrée est la fiabilité : nous avons des données entrées directement par les patients, et qui n’ont donc pas la même fiabilité que celles indiquées par les médecins – il y a un risque élevé de faux positif. Une manière de les rendre plus fiables est de les croiser avec d’autres données médicales. Cependant, le pont est difficile à établir car on se heurte vite à des problèmes de confidentialité. C’est pourquoi la génération de données synthétiques à partir de données sensibles est un domaine de recherche à part entière aujourd'hui : comment extraire des informations utiles pour les médecins à partir des traces sans compromettre la confidentialité des utilisateurs ?
Comment travaillez-vous avec vos partenaires ?
Nous avons des points réguliers avec les médecins, mais pendant l'urgence sanitaire il a fallu concilier des méthodes de travail différentes. Côté Inria, la priorité était de disposer d’une liberté d’action pour la fouille de données exploratoire, pour ouvrir les « opportunités de découverte », ce qui a conduit rapidement à la création de bases de données synthétiques libérées de contraintes de confidentialité. Côté AP-HP, l’approche était plus protocolaire pour suivre les recommandations habituelles et éprouvées du monde médical. Au final, ces approches bien distinctes ont mis en évidence leur grande complémentarité et utilité pour la recherche médicale et des discussions de collaborations pérennes très étroites sont maintenant envisagées entre Inria et l’AP-HP.