C'est la plus grande étude [1] du genre à ce jour. Elle a duré trois ans. Elle s'est intéressée à 694 enfants admis dans des hôpitaux de quatre pays la région du Grand Mékong : Cambodge, Laos, Vietnam et Myanmar. Une procédure de diagnostic harmonisée a permis d'établir que parmi ces jeunes patients, 664 présentaient effectivement une encéphalite. Cette inflammation aiguë du tissu cérébral peut résulter de nombreuses causes. D'où l'intérêt d'identifier correctement les agents pathogènes à l'origine de la maladie, qu'ils soient déjà connus ou encore à découvrir.
Les statistiques appliquées au domaine de la biologie
Coordonnées par l'Institut Pasteur au sein du consortium South East Asia encephalitis, ces investigations ont montré que dans 33% des cas, c'est le virus de l’encéphalite japonaise qui était en cause.
Le consortium SEAe
Le consortium SEAe comprend les autorités sanitaires et des hôpitaux du Cambodge, du Laos, du Myanmar et du Vietnam, l'Institut Pasteur, l'Institut Pasteur du Cambodge, l'Institut national d'hygiène et d'épidémiologie du Vietnam, l'Inserm, le Centre de coopération internationale en recherche agronomique pour le développement (Cirad), l'Institut de recherche pour le développement (IRD), l'Université Aix-Marseille, l'École des hautes études en santé publique (EHESP), le réseau Wellcome Trust Oxford MOP de l'Asie du Sud-Est. TotalEnergies Foundation et des membres d'Aviesan Sud ont contribué au financement du projet.
Mais les chercheurs ont aussi répertorié des cas liés aux virus de la dengue, de la grippe, de l'herpès simplex 1, au pneumocoque, à l’entérovirus 71 et une trentaine d'autres agents infectieux, sans oublier aussi parfois une origine auto-immune. D'un point de vue clinique, les traitements connus permettent de répondre actuellement à 18% des cas recensés dans l’étude. La vaccination, quant à elle, aurait pu prévenir 42% de toutes ces infections. Et c'est là le grand enseignement de cette étude qui promet d'avoir un fort impact.
Au centre Inria de Saclay, le chercheur Kevin Bleakley fait partie de CELESTE, une équipe-projet commune (Inria, Université Paris-Saclay, CNRS) orientée mathématiques qui évolue à l'interface entre statistiques et intelligence artificielle. Il est aussi le statisticien de cette étude médicale. « Au-delà des travaux théoriques que nous menons habituellement, j'ai eu envie de faire des statistiques qui soient immédiatement utiles dans le monde d'aujourd’hui. Depuis très longtemps, je m'intéresse aux applications pouvant servir en biologie. Je me suis rapproché d'abord de chercheurs à l'Institut Curie. Ils m'ont mis en lien avec des collègues de l'Institut Pasteur. Et c'est ainsi que j'ai commencé à travailler avec eux. D'abord sur la dengue, au Cambodge. Ensuite sur l'encéphalite. »
Pour cette maladie, un problème de fond subsiste. « Les chercheurs ont du mal à en identifier les causes. Cela d'autant plus que les pays en question ici ne sont pas très riches. Souvent donc, les hôpitaux ne peuvent pas tester les patients pour tous les pathogènes connus. » L'étude a permis de déployer des moyens de dépistage exhaustifs. « Sur les 664 enfants malades, nous sommes parvenus à identifier le pathogène responsable dans 425 cas. Malheureusement, dans les 239 autres, l'origine de la maladie reste inconnue. Nous avons essayé beaucoup de pistes. Mais sans rien trouver de concluant. » Les scientifiques ont passé au crible l'environnement des enfants. La famille élève-t-elle des cochons ? Des canards ? Des poulets ? Vit-elle sous un toit de chaume ? Un toit de tuiles ? Un toit métallique ? Autant de paramètres qui deviennent des variables dans le modèle statistique.
Verbatim
Il existe un rapport entre le nombre de variables que l'on prend en compte et le nombre d'individus étudiés. Plus il y a de variables d'intérêt (type sanguin, pression sanguine, animaux dans l'entourage, etc.), plus il faut de patients pour avoir confiance en nos résultats statistiques.
Chercheur au sein de l'équipe-projet CELESTE
Une des limites de ce type d'étude tient dans la taille de la cohorte. « 664 personnes, c'est déjà beaucoup aux yeux des biologistes. Ils doivent déployer beaucoup de moyens pour organiser un dépistage à cette échelle. Mais un biostatisticien, lui, préférerait des échantillons plus grands. Disons… 3000 personnes, par exemple. » Pourquoi ? « Parce qu'il existe un rapport entre le nombre de variables que l'on prend en compte et le nombre d'individus étudiés. Plus il y a de variables d'intérêt (type sanguin, pression sanguine, animaux dans l'entourage, etc.), plus il faut de patients pour avoir confiance en nos résultats statistiques sur des liens entre certaines de ces variables et une variable d’intérêt comme, par exemple, le fait qu’un enfant développe une encéphalite grave ou pas grave. » Contre-exemple extrême : « si nous n'avions que trois patients âgés de 5, 15 et 16 ans, et que seul celui de 5 ans souffrait d'une forme sévère, nous pourrions conclure, à tort, que l'âge constitue un facteur aggravant (lien possible entre "jeune" et "sévère"). Alors qu'en réalité, ce petit échantillon n'est pas représentatif. Le même phénomène pourrait exister si nous avions 300 variables concernant seulement 664 enfants. »
Tester des méthodes pour "détecter" des causes inconnues
Pour Kevin Bleakley, à travers cette étude, l'idée était aussi de tester certaines méthodes qui pourraient éventuellement "détecter" des causes inconnues d'encéphalites. Par exemple : l'Analyse en Composantes Principales (ACP). « Grâce à elle, nous projetons les données sous forme de points dans un espace en deux dimensions. Nous essayons ainsi de mettre en évidence des groupements de points correspondant à des patients chez qui on ignore l'origine de la maladie. Quand un groupement apparaît, nous pouvons commencer à investiguer. Essayer de repérer des variables d'intérêt. Est-ce que l'âge joue un rôle ? Est-ce que les enfants en question se trouvent dans le même pays ? Etc. Ces premiers éléments peuvent donner des pistes aux biologistes pour aller creuser plus loin. » Malheureusement, même avec des techniques plus poussées que l’ACP, les résultats ne se sont pas avérés concluants. « J'avais cet espoir. Mais en l'occurrence, nous n'avons rien trouvé de nouveau. Cet aspect des travaux n'a pas été publié car, hélas, il n'apportait pas de résultats biologiques intéressants. »
Verbatim
Ces algorithmes peuvent donner des résultats de prévision spectaculaires. Cela dit, pour qu'ils deviennent efficaces, il leur faut souvent une énorme quantité de données.
Chercheur au sein de l'équipe-projet CELESTE
Une deuxième grande partie de l’étude concernait la détection par modélisation multivariée de variables très liées à l’encéphalite sévère chez les enfants. Ce genre de modélisation revient à prédire "en amont" l’encéphalite sévère par des méthodes d’apprentissage statistique ou d'intelligence artificielle. Kevin Bleakley a surtout travaillé avec la méthode IA dite des "forêts aléatoires" « même si sa qualité de prévision sur les données de l’étude n’a pas été supérieure à celle de la régression logistique, une méthode "ancienne" cependant très appréciée des biologistes en raison de son interprétation facile. »
Et les réseaux de neurones ? « Là aussi, ils sont assez anciens. Ils datent des années cinquante. Mais ce qui nous manquait pour les exploiter, c'était avant tout la puissance de calcul. Désormais, nous l'avons. Ces algorithmes peuvent donc donner des résultats de prévision spectaculaires. Cela dit, pour qu'ils deviennent efficaces, il leur faut souvent une énorme quantité de données. Pour l'étude sur l'encéphalite, on ne dispose pas de ces volumes. Finalement, il n'y a pas de raison flagrante pour laquelle les réseaux de neurones marcheraient mieux que la forêt aléatoire ou la régression logistique sur notre taille d'échantillon. »
Autant de constats qui militent, eux aussi, pour la constitution de plus grandes cohortes. Rien d'insurmontable quand on sait qu'à elle seule, l'encéphalite japonaise frappe probablement environ 50 000 enfants, chaque année, dans la région du Grand Mékong.
[1] Childhood encephalitis in the Greater Mekong region (the SouthEast Asia Encephalitis Project): a multicentre prospective study, par Jean David Pommier, Chris Gorman, Yoann Crabol, Kevin Bleakley, Heng Sothy, Ky Santy et al., The Lancet Global Health, July 2022.