Données

Préserver la vie privée des participants au crowdsensing

Date:
Mis à jour le 05/02/2024
Les téléphones et les objets connectés sont bardés de capteurs. Quand les utilisateurs partagent leurs mesures, cela permet d’avoir une vue d’ensemble sur une situation. Cette pratique se nomme du crowdsensing. Ce qui pourrait se traduire en français par "mesures participatives". Mais en mettant ainsi leurs données à disposition, les participants s’exposent à ce qu’une partie de leur vie privée soit indirectement divulguée. Au Centre Inria de Saclay, l’équipe de recherche Petrus vient de proposer un algorithme pour mieux tenir compte du degré de consentement de l’utilisateur à l’exploitation éventuelle de ses données personnelles.
Tableau des consentements
© Petrus

 

Antenne GPS. Microphone. Appareil photo. Baromètre. Podomètre. Gyroscope. Lecteur de QR codes… Nos téléphones mobiles embarquent aujourd’hui de multiples instruments. À l’échelle planétaire, ce sont des milliards de capteurs qui peuvent remonter quantité d’informations sur des sujets les plus variés : l’état de la route, le nombre d’oiseaux dans les jardins, les vibrations du sous-sol ou encore le nombre d’heures de sommeil en moyenne pour une population donnée.

Collectées sur la base du volontariat, ces données intéressent toute sorte d’institutions et d’entreprises qui peuvent ainsi mener des analyses à grande échelle pour un prix raisonnable. De plus en plus souvent, des applications et plates-formes de crowdsensing vont donc mettre en relation des participants fournissant des mesures et des organisations exploitant ces informations pour des études environnementales, sociétales, médicales, commerciales, etc.

En toile de fond, une question se pose. Celle de la réutilisation d’une donnée collectée initialement pour une tâche précise, mais qui pourrait servir pour une autre. Dans l’idéal, le procédé présente d’énormes avantages : en réemployant des données déjà disponibles, l’analyste réalise d’importantes économies liées à la collecte. Et en s’appuyant sur des masses d’informations engrangées au fil du temps, il dispose aussi d’un meilleur jeu de données pour mener son analyse.

L’équipe-projet PETRUS

L’équipe-projet Inria Petrus, commune à Université de Versailles Saint-Quentin-en-Yvelines, au sein du laboratoire DAVID, travaille sur la protection de la vie privée par conception dans les architectures logicielles des futurs "clouds personnels", ces espaces où tout un chacun pourra entreposer ses photos de vacances, ses papiers administratifs ou ses factures.

Des informations personnelles déduites malgré le défaut de consentement

“Nous nous sommes intéressés au défaut de consentement quand un utilisateur accepte de contribuer à certaines tâches, mais pas à d’autres, explique Mariem Brahem, ingénieure de recherche, co-auteur avec Valérie Issarny[1] d’un article paru sur le sujet à l’occasion de la conférence PerCom consacrée à l’informatique pervasive. Nous avons montré que, dans certains cas, on pouvait inférer de l’information personnelle sur un participant, sans son consentement, à partir des données collectées dans un groupe.”

Pour les besoins de l’expérience, l’ingénieure s’appuie sur une étude où 120 personnes sont invitées à ouvrir le micro de leur téléphone pendant une semaine afin d’enregistrer la pollution sonore dans un lieu précis ou lors de leurs déplacements en ville. Chaque utilisateur va pouvoir donner son consentement pour seulement une première tâche, seulement une deuxième, ou les deux à la fois.

Verbatim

Nous avons montré que, dans certains cas, on pouvait inférer de l’information personnelle sur un participant, sans son consentement, à partir des données collectées dans un groupe.

Auteur

Mariem Brahem

Poste

Ingénieure de recherche au sein de l'équipe-projet PETRUS

Et c’est là que la surprise apparaît. Même si un utilisateur n’a consenti qu’à une tâche ne dévoilant pas de renseignements sur sa vie privée (ses déplacements par exemple), l’analyste peut malgré tout, indirectement, déduire ces informations personnelles à partir des données collectées dans un groupe si ce groupe rassemble des participants au consentement moins strict

Afin de se développer, le crowdsensing a donc besoin, par construction, d’une couche logicielle supplémentaire pour protéger les personnes contre ce risque. La solution proposée par les chercheurs comporte deux volets. “Nous avons d’abord conçu un manifeste, poursuit Mariem Brahem. Grâce à lui, l’utilisateur va cocher des cases pour indiquer très précisément à quelle(s) tâche(s) il consent, pour quel usage et par qui. Sur cette base très détaillée, le système devra assurer que le consentement ainsi exprimé est respecté tout au long du processus de traitement des données.”

Assembler les participants selon le niveau de consentement

À partir de là, une solution algorithmique va venir mesurer la distance entre les niveaux de consentement exprimés. Elle va ensuite constituer des groupes de participants en fonction de ces niveaux. Les personnes ayant des consentements très similaires se retrouveront ensemble. “Si vous consentez à la fois à effectuer la tâche 1 et la tâche 2, alors vous serez dans un même cluster T1+T2.” Chacun de ces groupes présentera par ailleurs une taille minimum. Il devient ainsi plus difficile de déduire des informations sur un participant en le comparant à d’autres. L’algorithme proposé s’appelle l-complétude. “Ce l est le paramètre qui correspond au nombre de personnes dans un groupe.”

Mais pour être pleinement utile, cette combinatoire entre tâches et consentements doit répondre à une exigence supplémentaire. Il lui faut s’efforcer de produire des groupes qui puissent effectuer un maximum de tâches. Autrement dit : éviter que des participants soient laissés de côté alors que leurs mesures auraient pu être intégrées pour certaines tâches dans le jeu de données servant à l’analyse. L’algorithme va donc optimiser cette distribution entre création des groupes et attribution des tâches.

Par cette preuve de concept, les chercheurs entendaient démontrer l’intérêt pour les applications de crowdsensing d’incorporer systématiquement ce type de propriété l-complétude dans leur architecture.

Ces travaux vont-ils connaître une suite ? “Nous explorons toujours la thématique du défaut de consentement, mais dans un autre contexte : celui du télétravail.” Le phénomène a pris l’ampleur que l’on sait. Mais, lui aussi, fait apparaître de nouvelles questions liées à la vie privée. “Imaginez, par exemple, que votre employeur ait convenu de rembourser vos frais d’électricité résultant de votre activité professionnelle. Vous avez donc besoin de lui fournir les relevés du compteur. Mais pour autant, vous ne souhaitez pas forcément divulguer des informations de consommation électrique liée à d’autres activité à votre domicile. Si vous allumez la machine à laver, il n’est pas nécessaire que votre employeur en soit informé. Il faut donc imaginer une solution pour que chacun puisse définir son niveau de vie privée.”

 


[1] Chercheuse Inria spécialiste des systèmes distribués, Valérie Issarny est décédée d’une longue maladie en novembre 2022.