Culture et société

Fact checking : l’intelligence artificielle au service des journalistes

Date:
Mis à jour le 02/07/2024
Comment savoir, parmi la masse d’informations diffusées chaque jour sur les réseaux sociaux ou par des personnalités publiques, où se cachent les erreurs et les mensonges ? C’est tout l’enjeu du fact checking… mais le chantier est titanesque. Estelle Cognacq, directrice adjointe de France Info, et Ioana Manolescu, responsable de l’équipe-projet Inria Cedar, nous expliquent comment journalistes, et chercheurs et chercheuses, se sont associés pour y faire face, en s’appuyant sur l’intelligence artificielle et les sciences des données.
Portraits Estelle Cognacq et Ioana Manolescu
Portrait Estelle Cognacq à gauche - © Christophe Abramowitz - Radio France / Portrait Ioana Manolescu à droite - ©Ioana Manolescu

À vos yeux, quels sont les défis à relever par les journalistes en matière de fact checking aujourd’hui ?

Estelle Cognacq : Franceinfo s’est engagé dans la lutte contre la désinformation et pour la restauration de la confiance dans les médias depuis plus de dix ans : la première chronique "Vrai ou faux" date par exemple de 2012 et un service spécial, dédié au fact checking, a été créé en 2019. Les journalistes qui y travaillent se sont fixé deux objectifs. D’une part, puisqu’il est impossible d’éradiquer les fausses informations, nous cherchons à donner au grand public les outils qui lui permettent de développer un esprit critique, de remettre en question ce qu’il voit, ce qu’il lit, ce qu’il entend. Nous allons donc expliquer notre façon de travailler, donner des astuces sur la façon de détecter des images truquées par exemple.

D’autre part, nous allons nous saisir directement des fausses informations qui circulent, lorsque celles-ci entrent en résonance avec la démocratie, la citoyenneté ou les questions d’actualité importantes, pour établir les faits. Mais plus il y a de monde sur les réseaux sociaux, plus des informations y circulent et plus les journalistes ont besoin d’aide : l’humain a ses limites lorsqu’il s’agit de trier des quantités phénoménales de données.

Iona Manolescu : Et c’est justement là tout l’intérêt des recherches que nous menons au sein de l’équipe-projet Cedar (équipe commune au centre Inria de Saclay et à l’Institut Polytechnique de Paris, au sein du laboratoire LIX), qui est spécialisée en sciences des données et en intelligence artificielle (IA). Sur la question du fact checking, il nous faut d’un côté vérifier automatiquement une masse d’informations, mais de l’autre, nous disposons de quantités de données de qualité disponibles en open source, sur les bases statistiques officielles par exemple. La comparaison des unes aux autres constitue un procédé éminemment automatisable pour vérifier davantage et plus vite.

Et c’est pourquoi un partenariat s’est noué entre Radio France et Cedar… Comment a-t-il vu jour ?

I.M. : De 2016 à 2019, l’un de mes doctorants avait travaillé sur un premier logiciel de fact checking automatique, baptisé StatCheck, dans le cadre du projet ANR ContentCheck que j’avais coordonné, en collaboration avec Le Monde. Ce projet est arrivé jusqu’aux oreilles d’Eric Labaye, président de l’Institut polytechnique de Paris, qui en a lui-même parlé à Sybile Veil, directrice de Radio France. De là est née l’idée d’une collaboration entre chercheurs et chercheuses d’Inria et journalistes de Radio France. Du fait de la pandémie de Covid, il a fallu attendre l’automne 2021 pour que celle-ci se concrétise.

E.C. : Notre objectif était vraiment de partir des besoins de nos journalistes, de disposer d’un outil qui les aide efficacement au quotidien. Antoine Krempf, qui dirigeait la cellule "Vrai ou faux" à l’époque, a par exemple dressé la liste des bases de données qu’il souhaitait voir prises en compte par l’outil.

Toutes les semaines, nous avions également un point qui réunissait les deux ingénieurs en charge du projet chez Inria et les journalistes : l’occasion pour les premiers de présenter l’évolution de l’outil et pour les seconds de préciser ce qui manquait encore ou ce qui leur convenait. Et ces échanges se poursuivent aujourd’hui. Croiser les disciplines entre scientifiques et journalistes dans une optique de partage est très intéressant.

I.M. : Au cours de ce processus, nous avons réécrit tout le code de StatCheck, travaillé sur la compréhension du langage naturel pour permettre à l’outil d’apprendre à analyser un tweet par exemple, avec la contribution essentielle de Oana Balalau, chercheuse (Inria Starting Faculty Position) au sein de l’équipe Cedar. Deux jeunes ingénieurs de l’équipe, Simon Ebel et Théo Galizzi, ont échangé régulièrement avec les journalistes pour imaginer et mettre au point une nouvelle interface, plus agréable et plus adaptée à leur utilisation.

Ce logiciel est-il maintenant capable de faire le travail du "fact checker" ?

I.M. : Aujourd’hui, StatCheck est à la disposition de la dizaine de journalistes de la cellule "Le vrai du faux"… mais il ne les remplace pas ! D’abord parce que nous ne pouvons pas atteindre une précision de 100% dans l’analyse des informations. Donc le logiciel affiche ses sources pour le journaliste, qui va pouvoir vérifier que l’outil n’a pas fait d’erreur. Ensuite, parce que l’humain reste maître de l’analyse qu’il produit à partir du recoupement de données réalisé par StatCheck.

E.C. : Ainsi, chaque journaliste l’utilise à sa manière. Mais cet outil s’avère particulièrement précieux pour les plus jeunes, qui n’ont pas forcément encore l’habitude de savoir où regarder parmi les sources.

Quels sont les développements en cours ou à venir pour StatCheck ?

E.C. : Nous profitons déjà de fonctionnalités ajoutées récemment, comme la détection de données quantitatives. Nous avons entré dans StatCheck des dizaines de comptes Twitter (devenu X) de personnalités politiques et le logiciel nous signale les tweets qui contiennent des données chiffrées. Ce sont des alertes très utiles qui nous permettent de rapidement repérer les informations à vérifier.

L’outil a également été amélioré pour détecter la propagande et les éléments de persuasion dans les tweets. Nous utilisons cette fonctionnalité sur du plus long terme que le fact checking : elle nous permet d’identifier les sujets qu’il pourrait être pertinent de traiter sur le fond.

I.M. : Pour l’instant, StatCheck va puiser dans les bases de données de l’Insee (Institut national de la statistique et des études économiques) et d’EuroStat, la direction générale de la Commission européenne chargée de l'information statistique. Mais dans la liste établie par Antoine Krempf, il y a aussi une kyrielle de sites très spécialisés comme les directions statistiques des ministères. Le problème est que leurs formats de données ne sont pas homogènes. Il faut donc une chaîne d’analyse et d’acquisition des informations à partir de ces sites, pour les extraire et les exploiter de manière automatique. Les deux ingénieurs du projet sont sur une piste intéressante sur ce point.

Et votre partenariat lui-même, est-il amené à évoluer ?

E.C. : Nous sommes en train de réfléchir à son inscription dans une collaboration plus large avec Inria, en incluant par exemple la cellule investigation et la rédaction internationale de Radio France, pourquoi pas au sein d’un laboratoire IA commun.   

I.M. : Nous avons d’autres outils qui pourraient être utiles aux journalistes de Radio France, comme ConnectionLens. Celui-ci permet de croiser des sources de données de tous formats et de toutes origines grâce à l’IA… Pratique par exemple pour repérer qu’une personne mentionnée dans un appel d’offres est la belle-sœur d’un membre du comité de sélection de l’appel d’offres ! Là encore, le journaliste restera indispensable pour identifier le type d’information à rechercher, ainsi que pour vérifier et analyser ces connexions, mais l’outil lui fournira des pièces du puzzle. En fait, toutes les évolutions sont envisageables… elles demandent simplement parfois du temps !