Apprendre des données de santé
Dans le secteur de la santé, et plus encore de la santé numérique, les études multicentriques nécessitent souvent de réunir sur un serveur des données provenant de plusieurs établissements ou pays, par exemple pour identifier les facteurs de risque de démence due à la maladie d'Alzheimer ou pour étudier le fonctionnement de certaines bactéries. Mais rassembler des données de santé en un unique lieu pose des enjeux de confidentialité.
Une alternative serait de pouvoir traiter les données de chaque établissement sur place, sans avoir à les anonymiser ni les déplacer. C'est l'un des sujets sur lesquels travaille depuis 2016 l'équipe-projet Magnet (pour « Machine learning in information networks », en anglais) du centre Inria de l'Université de Lille, qui compte environ 25 membres (chercheurs, ingénieurs, postdoctorants...). Son objectif ? Faciliter une utilisation plus éthique et protectrice des données personnelles, des nouveaux algorithmes d'intelligence artificielle et d'apprentissage machine (machine learning). Et par là-même rendre leur utilisation possible dans des secteurs où la confidentialité est critique.
L'apprentissage centralisé a des limites
Très prisé des grands acteurs du numérique, détenteurs de gigantesques bases où sont stockées toutes les données d'utilisation de leurs services, le machine learning est utilisé pour effectuer de plus en plus de processus complexes, comme traditionnellement l'analyse de texte en langage naturel ou la reconnaissance vocale, ou bien la représentation de certaines données sous forme de graphes. Il repose sur des algorithmes, qui s'entraînent et apprennent à partir de vastes quantités de données centralisées.
Mais une centralisation de ce type est peu adaptée aux secteurs les plus sensibles, comme la santé. Premier problème :
Il est difficile de transférer vers un tiers certaines données, en particulier hospitalières, qui sont sensibles et protégées, explique Aurélien Bellet, chercheur au sein de cette équipe-projet.
Deuxième difficulté : « Lorsque les données transférées sont anonymisées, elles risquent de perdre une partie de leur richesse. De plus, les techniques d’anonymisation sont imparfaites : il y a un danger que le modèle appris permette de retrouver les données sensibles qui ont servi lors de son entraînement », ajoute ce chercheur.
En route vers l'apprentissage fédéré
Avec l'apprentissage fédéré (aussi appelé « federated machine learning »), « l'innovation réside dans la création d'algorithmes d'apprentissage capables de fonctionner à partir de données stockées dans le réseau, sans avoir à les transmettre vers un lieu unique », explique de son côté Marc Tommasi, responsable de Magnet.
Signe de l'intérêt que suscitent ces nouvelles méthodes, l'équipe-projet a remporté un projet européen dans le cadre de REACT-EU financé par les fonds feder et également l'an dernier un appel à projets de la CNIL (Commission nationale de l'informatique et des libertés) pour « déployer, au sein d’un réseau de centres hospitaliers universitaires, des algorithmes de calcul fédéré dans le cadre d’études cliniques multicentriques dites décentralisées ». Il fait suite à une action exploratoire, baptisée Flamed (pour « Federated Learning and Analytics on Medical Data »), qui vise à explorer une approche décentralisée de l'intelligence artificielle appliquée à la santé.
Conserver la souveraineté des données de santé
Pourquoi est-ce important ? « Les centres hospitaliers avec lesquels Magnet collabore – réunis au sein du Groupement de coopération sanitaire G4 (comprenant les CHU d’Amiens, de Caen, de Lille et de Rouen) – souhaitent éviter la centralisation et garder le contrôle sur les données qu'ils collectent au travers de leurs activités », détaille Marc Tommasi.
Le chercheur ajoute :
D'un point de vue juridique, compte tenu des conditions légales à remplir pour traiter de façon externalisée des données de santé, l'apprentissage fédéré a aussi vocation à faciliter l'organisation des études multicentriques (menées sur des données appartenant à plusieurs hôpitaux).
Le récent travail avec la CNIL a d'ailleurs aidé les chercheurs de Magnet à évaluer les risques liés à la protection des données personnelles et les mesures à mettre en œuvre pour respecter les règlements en vigueur, comme le RGPD (Règlement général sur la protection des données).
Formaliser des méthodes réutilisables
En matière de recherche, les chercheurs de Magnet se heurtent à une difficulté : il s’agit de concevoir des algorithmes protégeant la confidentialité des données traitées, tout en tenant compte de leur hétérogénéité. En effet, les caractéristiques des données peuvent varier d'un établissement à l'autre, suivant les habitudes, les spécialités ou les politiques de soin de chacun. S'y ajoute un travail d'ingénierie assez complexe à effectuer avec chacun des hôpitaux participants, « notamment pour que les algorithmes d'apprentissage fédéré puissent s'exécuter au sein de leur propre système d'information (et donc franchir les pare-feux…), et ensuite communiquer avec les modèles d'apprentissage entraînés à d'autres endroits », explique Marc Tommasi.
Quel est l’objectif des projets menés avec des CHU et avec la CNIL ? « Développer des méthodes, sur des cas d'usage réels, afin de réaliser des études médicales multicentriques sans avoir à déplacer les données, détaille Aurélien Bellet. La formalisation des démarches utilisées sur les études pilotes devrait ainsi servir de base à d'autres études du même type à l'avenir, en santé ou dans d'autres domaines. » Car pour Magnet, l'idée est parallèlement de proposer en open source une infrastructure et une "librairie d'apprentissage fédéré", utilisable par d'autres CHU, institutions publiques ou entreprises ayant la volonté de travailler sur des données décentralisées. Les utilisateurs potentiels sont nombreux…
Biographies express
Marc Tommasi
Professeur en informatique à l’université de Lille, Marc Tommasi dirige l’équipe projet Magnet depuis 2016 et travaille principalement sur l’apprentissage machine. Magnet est une équipe commune au centre Inria de l'Université de Lille et au laboratoire CRISTAL (Centre de recherche en informatique, signal et automatique de Lille, UMR CNRS 9189).
Aurélien Bellet
Chercheur au sein de l'équipe-projet Magnet d'Inria, Aurélien Bellet est spécialiste de la théorie et des algorithmes d’apprentissage machine. Il s'intéresse notamment à la conception d'algorithmes respectueux de la vie privée dans un contexte d'apprentissage fédéré et décentralisé.
En savoir plus
- Le "bac à sable", données personnelles de la CNIL, 2022.
- Aurélien Bellet et Marc Tommasi : l’apprentissage fédéré, un « nouveau paradigme pour l’apprentissage machine », Laboratoire d’innovation numérique de la Cnil (LINC), 3/4/2022.
- Chacun chez soi et les données seront bien gardées : l’apprentissage fédéré, Laboratoire d’innovation numérique de la Cnil (LINC), 4/4/2022.
- Aurélien Bellet - Decentralized and Privacy-Preserving Machine Learning, Conférence IA - Institut Henri Poincaré, 16 et 17/11/2021.
- Apprentissage fédéré pour les données médicales, Gilles Wainrib, Collège de France, 14/3/2018.
- Apprentissage fédéré : une nouvelle approche de l’apprentissage machine, Yann Bocchi, Haute École spécialisée de Suisse occidentale, 11/08/2021.