Comment exploiter efficacement des milliards de données enregistrées sous des formats divers et réparties sur des milliers de serveurs ? Ce défi qui semble relever de l’impossible est au cœur des travaux de Ioana Manolescu, directrice de l’équipe de recherche Cedar, commune à Inria et à l’École polytechnique. Avec des applications à fort impact sociétal comme le fact checking journalistique.
Dès son premier stage de master à Inria en 1997, Ioana Manolescu s’initie aux problématiques spécifiques des bases de données en auditant les performances des logiciels d’interrogation de bases de données. Une expérience qui l’a beaucoup marquée : « Cela m’a particulièrement intéressée de travailler sur de vrais logiciels dédiés à des sujets impactant la vie réelle », se souvient-elle. « Surtout, j’ai réalisé que le volume des données pouvait faire exploser les temps de traitement jusqu’à les rendre parfois rédhibitoires... Je me suis dit "À quoi bon disposer d’autant de données si on n’arrive pas à les exploiter ?" »
Inria, le choix du cœur
Plus de vingt ans plus tard, cette question reste le fil conducteur de la démarche de recherche de Ioana Manolescu. Après un second stage à Inria, puis une thèse, la chercheuse intègre l’institut en 2002. Le "choix du cœur", dit-elle : « J’ai été vraiment bien accueillie dans l’environnement très international d’Inria où je me suis intégrée facilement, et où mes encadrants m’ont rapidement fait confiance. »
Tandis que Ioana gravit les échelons jusqu’à devenir directrice de recherche en 2010, le volume des bases de données explose - jusqu’à héberger aujourd’hui des milliards de données pour chaque base soit des quantités phénoménales de données. Chaque base de données peut être distribuée sur des milliers de serveurs grâce à la magie du Cloud. Les données sont enregistrées sous de multiples formats, qu’il s’agisse de texte structuré, de documents semi-structurés, de vecteurs, de graphes RDF ou encore de valeurs numériques, etc.
« Le niveau de complexité de la gestion des bases de données s’est beaucoup accru », considère la chercheuse. « Cependant, contrairement aux médecins qui ont la vie des patients entre leurs mains, nous avons la chance en sciences du numérique de pouvoir faire des expérimentations sans que cela ait des conséquences lourdes en cas d’erreur… Alors je prends des risques, j’explore les pistes qui me paraissent intéressantes, et souvent, ça marche ! »
Représentation et traitement des données, techniques algébriques pour les requêtes, gestion de la connaissance, apprentissage automatique, etc. : au sein de son équipe de recherche Cedar, commune à Inria et à l’École polytechnique, Ioana Manolescu a regroupé une large palette de compétences. De quoi cibler des applications précises, avec la volonté d’y apporter des solutions qui fonctionnent.
Un outil automatique de fact checking journalistique
Et s’il y a un projet qui lui tient particulièrement à cœur, c’est certainement celui du fact checking journalistique ou l’art de vérifier systématiquement les informations : « Ayant grandi en Roumanie sous la dictature de Ceausescu, je suis très consciente de la chance que nous avons de vivre dans un pays comme la France où la presse est libre », annonce Ioana Manolescu. « Malheureusement cela n’empêche pas que le débat démocratique soit biaisé, car l’émotion et le pulsionnel l’emportent trop souvent sur les faits et la raison. Il existe de nombreuses sources de grande qualité comme par exemple les chiffres de l’Insee, mais elles sont difficiles à utiliser car insuffisamment indexées. À nous d’apporter aux journalistes des outils vraiment efficaces ! »
Résultat : l’équipe de Ioana Manolescu publie dès 2013 l’un des tout premiers articles scientifiques sur le fact checking. Avant de lancer deux ans plus tard le projet ANR ContentCheck en collaboration avec l’équipe de la rubrique Les décodeurs au sein de la rédaction du journal Le Monde.
L’objectif ?
Aider les journalistes à vérifier plus rapidement des faits à partir de données disponibles en ligne. Avec l’outil développé par le doctorant Duc Cao, en collaboration avec Xavier Tannier de l'université Paris Sorbonne, il devient possible de modifier le format et l’ergonomie des bases de données Insee afin de les rendre plus faciles à exploiter. Et de mener en mode automatique des vérifications qui prendraient des heures en manuel.
Résultat ?
Il suffit alors de soumettre un texte à ContentCheck pour qu’il y repère toutes les mentions d’entités statistiques comme par exemple « le chômage des jeunes atteignait 20 % en 2017 », puis qu’il les vérifie. En moins d’une seconde, l’outil fournit le chiffre exact ou à défaut le tableau ou l’étude où le retrouver.
Croiser automatiquement les sources d’informations
Toujours du côté de la presse, Ioana Manolescu s’est aussi intéressée au "data journalisme", c’est-à-dire l’exploration des bases de données publiques et la visualisation de données qui en découle. Au printemps 2019, la scientifique a réalisé devant la ministre de la Défense Florence Parly la démonstration de ConnectionLens, un outil capable d’agglomérer et de relier de façon contextualisée plusieurs bases de données : « En intégrant par exemple la liste des députés actuels, les extraits du Journal Officiel qui listent les étudiants reçus à l’École polytechnique depuis plusieurs dizaines d’années, et l’organigramme d’Areva, ConnectionLens a mis en évidence le fait qu’une députée LREM faisait partie de la même promotion que l’actuel PDG d’Areva… », évoque Ioana Manolescu. Une information intéressante - devenue accessible aux journalistes en quelques clics au lieu d’une longue et fastidieuse enquête.
Autre exemple d’application des travaux de Cedar, la recherche d’anomalies dans des "séries temporelles", c’est-à-dire des enregistrements de durées. Exemple : si on relève et stocke les durées des tâches successives réalisées par un serveur, le système serait en mesure de distinguer les fluctuations de durée "normales", liées à un pic de charge de travail, de celles qui révèlent un problème ou une panne.
Enfin, Ioana Manolescu développe des technologies d’exploration interactive de données, destinées à aider un utilisateur à trouver ce qu’il cherche dans des bases gigantesques. Tout particulier en quête d’un appartement sait par exemple qu’il passera des heures sur les sites d’annonces pour sélectionner des biens conformes à ses critères impératifs (quartier, superficie, prix) et facultatifs (étage, balcon…). Demain peut-être, une technologie accomplira cette besogne en quelques secondes, grâce aux travaux menés au sein de Cedar par l’équipe de Yanlei Diao, professeur à l’École polytechnique.
En savoir plus
- Equipe Cedar
- ContentCheck
- Démonstration de ConnectionLens (en anglais)
Préparer les bases de données publiques pour l’IA.
Ioana Manolescu est aussi la directrice scientifique du "Lab IA" depuis début 2019, un dispositif public de préparation au déploiement de l’intelligence artificielle dans les administrations. À ce titre, la chercheuse participe à la sélection des projets, puis les accompagne, toujours sous l’angle de l’exploitation des bases de données. Au menu : homogénéisation des données, affinage de l’indexation, optimisation des temps de traitement, que ce soit à l'IGN (Institut géographique national), à la Cour de Cassation, au Shom (Service hydrographique national) ou à la DGCCRF (Direction générale de la concurrence, de la consommation et de la répression des fraudes).