Harcèlement scolaire : un thème de recherche voulu par les élèves
L’objectif des chercheurs de l’équipe-projet Petscraft de travailler sur le harcèlement scolaire est venu des principaux intéressés, les élèves : « Je suis engagé auprès de lycéens dans le cadre du programme national "1 scientifique, 1 classe : Chiche !", explique Nicolas Anciaux, directeur de recherche au centre Inria de Saclay . Cette initiative soutenue par Inria et l’État vise à ce que toutes les classes de 2nde bénéficient de la visite d’ un chercheur spécialisé en numérique. En 2023, j’ai profité de ma présentation sur le respect de la vie privée pour demander à ces lycéens les sujets concrets essentiels à aborder pour eux. Quelques-uns d’entre eux ont suggéré l’idée de pouvoir faire des déclarations vraiment anonymes dans le cadre du harcèlement scolaire. »
De son côté, Cédric Eichler, enseignant-chercheur à l’Insa Centre Val de Loire et l’un des cofondateurs de l’équipe-projet Petscraft, était déjà sensibilisé à cette question.
Verbatim
Je préside et instruis des commissions de discipline à l’Insa. Dans les cas de harcèlement, j’ai vu des étudiants refuser de témoigner de peur d’être identifiés ou, à l’inverse, certains autres témoignaient sans mesurer les risques d’être reconnus par l’accusé.
Enseignant-chercheur à l’Insa Centre Val de Loire
Une coopération étroite entre chercheurs d’Inria et de l’Insa
La lutte contre le harcèlement scolaire constitue l’un des premiers thèmes de recherche pour cette jeune équipe, lancée officiellement en 2024 et issue d’un partenariat entre deux chercheurs. Nicolas Anciaux et Benjamin Nguyen, professeur à l’Insa Centre Val de Loire à Bourges, collaboraient en effet déjà depuis des années sur le thème du respect de la vie privée.
De ce travail commun, est née l’idée de coopérer encore plus étroitement en créant l’équipe-projet Petscraft, avec d’autres collègues de l’Insa. « La ville de Bourges est un lieu important pour la cybersécurité militaireet la vie privée est une sous-partie de la cybersécurité, souligne Nicolas Anciaux. Il était donc logique que nous nous rapprochions. » Avec un objectif : s’intéresser aux nouveaux sujets liés à la vie privée qui n’ont pas encore été explorés.
L’équipe Petscraft
Lancée officiellement en juin 2024, l’équipe-projet Petscraft est dirigée par Benjamin Nguyen. Elle compte cinq membres fondateurs, dont Nicolas Anciaux, d’Inria, et quatre enseignants chercheurs de l’Insa Centre Val de Loire (Adrien Boiret, Xavier Bultel, Cédric Eichler, Benjamin Nguyen), auxquels se sont joints deux collaborateurs externes (Iulian Sandu Popa de l’université de Versailles et José Maria de Fuentes de l’université de Madrid). Une dizaine de doctorants et postdoctorants chez Inria et l’Insa complètent l’équipe. Sans oublier Loïc Besnier, chargé de la médiation scientifique et docteur en sciences humaines.
Pourquoi avoir choisi le nom de Petscraft ? Parce que l’équipe ambitionne de développer des PETs, des Privacy-Enhancing Technologies, des technologies d’amélioration de la vie privée, qu’elle entend "crafter", autrement dit concevoir, analyser, implémenter, déployer et tester.
Petscraft se concentre sur quatre axes de recherche concernant les PETs :
- Les modèles explicables
- L’aide à la décision
- Les protocoles sécurisés
- La gestion de données de confiance
L’IA peut-elle deviner l’identité d’auteurs anonymes ?
Le harcèlement scolaire figure justement parmi ces sujets. Un thème sur lequel les chercheurs du centre Inria de Saclay et de l’Insa Centre Val de Loire commencent à travailler ensemble dès la fin de l’année 2023. Leur volonté ? Trouver un moyen de protéger l’anonymat des témoins en cas de signalement, à travers l’utilisation d’un chatbot. Dans ce cadre, Nicolas Anciaux et Cédric Eichler ont repéré un article de l’EPFL (École polytechnique fédérale de Lausanne), qui démontre qu’en soumettant un texte écrit par un humain à un LLM (Large Language Model) et en lui posant des questions sur le rédacteur, le LLM parvient à reconnaitre ses particularités, comme son genre, son âge, son lieu de vie… même si rien n’apparaît clairement dans le texte.
« Les LLM sont des modèles de type ChatGPT qui utilisent l’IA générative pour l’analyse, le traitement et la génération du langage naturel, précise Cédric Eichler. Ils nous semblaient de bons outils pour notre recherche. Pour le démontrer, nous avons soumis un jeu de données à notre disposition (des avis sur des hôtels, dont nous connaissions le genre et la tranche d’âge des auteurs) à ChatGPT. Dans 78 % des cas, le chatbot pouvait deviner si la personne qui avait rédigé l’avis était un homme ou une femme. Nous lui avons demandé de réécrire en supprimant l’information permettant de deviner le genre et en adoptant un ton neutre : le taux de détection du genre est alors tombé à 52 %, proche de l’aléatoire entre hommes et femmes comme c’est le cas dans la population française. Ce résultat a été assez probant pour décider de lancer une thèse sur ce sujet dès la création de Petscraft en juin 2024, en recrutant un doctorant, Lucas Biéchy. »
Une recherche innovante en termes de protection de la vie privée
Au cœur de cette recherche, une question inédite : les LLM peuvent-ils dévoiler la vie privée des rédacteurs et, inversement, peuvent-ils la protéger ? Aujourd’hui, l’équipe en est encore aux débuts de son exploration, quelques mois seulement après sa création. Elle travaille sur la méthodologie à mettre en place, pour démarrer sur de bonnes bases.
Verbatim
Nous cherchons à définir les règles et les métriques pour concevoir et valider une PET (Privacy-Enhancing Technology), c’est-à-dire une technologie d’amélioration de la vie privée, fondée sur les LLM pour reformuler des textes.
Enseignant-chercheur à l’Insa Centre Val de Loire
Nous nous interrogeons aussi sur les risques résiduels dans les textes, sur la manière de surentraîner les LLM, ou encore sur l’utilisation d’autres technologies, comme le RAG (Retrieval Augmented Generation). » Le RAG est une démarche innovante alliant le meilleur de la recherche d’informations et de la génération de contenus par l’IA. Les LLM créent du contenu en s’appuyant sur les données apprises durant l’entraînement de l’IA. Le RAG, lui, permet de consulter une base de documents externes en temps réel pour enrichir la rédaction de texte par l’IA.
À l’horizon, un chabot pour protéger l’anonymat des élèves
Verbatim
Nous imaginons créer un chatbot capable de réécrire les signalements de harcèlement par des lycéens ou des collégiens, afin d’empêcher de les identifier, ou de les alerter au moindre risque de reconnaissance, poursuit le chercheur.
Directeur de recherche au centre Inria de Saclay
Quelles seront les suites du projet ? « Nous allons procéder par étapes, indique Nicolas Anciaux. Nous ne pouvons pas tout de suite lancer une recherche sur les cas de harcèlement scolaire, les jeux de données n’étant pas assez importants. Nous allons donc commencer par les avis sur des hôtels ou d’autres cas d’usage pour lesquels des jeux de données sont publics. Ensuite, nous aborderons le harcèlement dans les grandes écoles, plus facile à traiter que dans le cadre scolaire car les élèves sont majeurs. »
L’objectif à terme ?
« Nous imaginons créer un chatbot capable de réécrire les signalements de harcèlement par des lycéens ou des collégiens, afin d’empêcher de les identifier, ou de les alerter au moindre risque de reconnaissance, poursuit le chercheur. Et au-delà du harcèlement scolaire, les champs d’application de l’utilisation des LLM relatifs au respect de la vie privée sont larges, comme l’examen de CV, la lecture d’une page web personnelle... ». Une exploration scientifique à suivre…
En savoir plus
- Politique de lutte contre le harcèlement à l'école, ministère de l’Éducation nationale, novembre 2024.
- Harcèlement scolaire : plus d'un élève par classe est concerné, Les Échos, 12/2/2024.
- Comment des situations de harcèlement scolaire peuvent-elles échapper si longtemps à la vigilance des adultes ? The Conversation, 1/12/2024.
- Explorer des bases de données complexes pour enrayer les fausses informations et la haine en ligne, Inria, 4/3/2021.
- Les quatre piliers de la recherche en IA pour l'éducation, Inria, 13/11/2023.
- Beyond Memorization : un site web de l’EPFL, accessible au grand public où l’on peut se comparer aux LLMs.
Pour les experts :
- reteLLMe : Design Rules for using Large Language Models to Protect the Privacy of Individuals in their Textual Contributions, DPM 2024 – International Workshop on Data Privacy Management @ ESORICS, Barcelone (Espagne), 3/9/2024.