Alvearium : vers un Cloud souverain partagé, respectueux des données de ses utilisateurs

Mis à jour le 13/12/2023

Hive et Inria se sont engagés pour quatre ans dans un partenariat visant à développer un Cloud souverain, capable de fournir à la fois le calcul et le stockage des données via un réseau "peer-to-peer", plutôt que depuis un ensemble centralisé de centres de données. Zoom sur le partenariat, avec Claudia-Lavinia Ignat, responsable du Défi pour Inria.

Photos, vidéos, documents importants… le stockage dans le Cloud fait partie intégrante de notre quotidien, depuis plus d’une décennie. La plupart des données des utilisateurs sont stockées par des grands fournisseurs de services, qui ont la capacité de construire des centres de données capables de traiter une grande quantité d'informations.

Les utilisateurs doivent ainsi faire confiance aux fournisseurs Cloud pour préserver la confidentialité de leurs données, tout en ayant peu de contrôle sur leur utilisation. En effet, les conditions de service des principaux acteurs peuvent donner la permission d'accéder et d'exploiter les données des utilisateurs à leurs systèmes automatisés, à leurs employés ou à des tiers de confiance.

Un "AirBNB du stockage de données"

C’est à cette problématique que s’attaque la startup Hive pour développer un Cloud pair-à-pair, alternatif aux solutions existantes, qui fournit à la fois le calcul et le stockage de données via un réseau pair-à-pair plutôt qu’un ensemble centralisé.

« Hive propose d’exploiter la capacité inutilisée des ordinateurs, et incite les utilisateurs à apporter leurs ressources informatiques au réseau, en échange d’une capacité similaire du réseau ou d’une compensation monétaire », explique Claudia-Lavinia Ignat, responsable de l’équipe-projet COAST (équipe commune à Inria Nancy – Grand Est et Loria) et du Défi Alvearium pour Inria.

En pratique : l’utilisateur va se connecter au réseau, s’identifier sur la plate-forme de Hive, et décider de partager une partie de ses ressources (100 Go d’espace de stockage, par exemple). Le service est gratuit et n’est payant que si l’utilisateur consomme davantage que ce qu’il partage.

En échangeant leurs ressources informatiques, les utilisateurs peuvent alors bénéficier de tous les services d’un cloud, tout en assurant la confidentialité de leurs données puisque celles-ci sont fragmentées, chiffrées et dispersées à travers le réseau pair-à-pair. Les utilisateurs peuvent contrôler l’accès à leurs données en partageant directement et uniquement avec les utilisateurs en qui ils ont confiance la localisation des fragments et leurs clés de déchiffrement, et ce, sans avoir à les stocker auprès d’une autorité centrale. « Le risque de violation de la vie privée est réduit car en cas d’attaque sur un nœud du réseau pair-à-pair, seulement une petite partie des données protégées est exposée. Il n’y a plus un endroit unique où un pirate peut attaquer pour récupérer toutes les données. Cela devient donc beaucoup plus compliqué pour un attaquant », précise Claudia-Lavinia Ignat.

Autre avantage du système proposé par Hive : les nœuds participants sont détenus et exploités par des personnes indépendantes et les coûts d'administration du système sont donc partagés. Cette solution devrait rendre le stockage et le partage des données plus abordables pour tous. Elle réduit également le gaspillage d'énergie en fournissant des ressources de calcul et de stockage plus proches des utilisateurs et en évitant les frais généraux d'énergie des centres de données, tels que le refroidissement dont le coût représente environ 40 % de la consommation totale d'énergie d'un centre de données.

Plus on a d’utilisateurs, plus on passe à l’échelle, plus la résilience est grande.

Claudia-Lavinia Ignat

Un Défi pour un Cloud souverain capable de faire face aux géants américains

Pour, justement, passer à l’échelle, Hive et Inria ont ainsi décidé de travailler main dans la main pour voir émerger un Cloud souverain, au travers d’un Défi commun.

Hive offre en effet, actuellement, une solution de stockage de données pour des documents de tout type, qu'ils soient textuels ou multimédia. Ces documents peuvent être d'une taille importante de plusieurs dizaines de mégaoctets. Cependant, ces documents sont immuables, c'est-à-dire qu'ils sont en lecture seule et ne peuvent pas être modifiés. Dans ce Défi, Inria et Hive vont ainsi travailler à étendre la solution actuelle aux données mutables, c'est-à-dire aux données dont l'état peut être modifié après leur création. « Nous ciblons, en plus, les données mutables qui peuvent être modifiées de manière collaborative par différents utilisateurs », précise Claudia-Lavinia Ignat, avant d’ajouter «le principal défi est de savoir comment assurer la convergence des données en présence de modifications concurrentes ».

En plus d'assurer la haute disponibilité des données, c'est-à-dire que celles-ci soient disponibles à tout moment et que toute requête les concernant doit donner lieu à une réponse, mais aussi leur cohérence, Alvearium veut garantir que les données soient stockées de manière sécurisée. « Nous cherchons à garantir à la fois la confidentialité, l'intégrité et l'accessibilité des données, c’est-à-dire que qu’elles soient protégées contre toute lecture non autorisée, et qu’elles ne puissent pas être modifiées par un accès non autorisé », indique Claudia-Lavinia Ignat.

Les grands fournisseurs de services collaboratifs tels que Dropbox, iCloud et GoogleDrive ont en effet adopté des solutions de chiffrement afin de ne stocker que la version chiffrée des données des documents partagés. Cependant, pour faciliter l'utilisation de leurs services, les fournisseurs de services stockent également les clés de chiffrement, ce qui leur donne la possibilité de décrypter les données et donc d'être soumis à différentes attaques. Ce projet vise ainsi à proposer des techniques de chiffrement dites "de bout en bout", pour que seuls les pairs autorisés puissent déchiffrer les données.

Quatre axes de travail pour quatre années de Défi

Pour répondre à ces problématiques, le Défi, baptisé Alvearium, va ainsi mettre les compétences de quatre équipes-projets Inria (COAST, qui travaille sur les systèmes collaboratifs distribués ; MYRIADS, qui travaille sur le Cloud et la gestion des ressources dans le Cloud ; WIDE, qui travaille sur la théorie et les outils pour les systèmes distribués à large échelle et dynamiques ; COATI, qui travaille sur les algorithmes d’optimisation des réseaux) au service de la résolution des problématiques rencontrées par Hive.

Le Défi est structuré en quatre axes :

Le placement et la réparation viables des données. Le stockage pair-à-pair doit avoir une stratégie de placement des données pour sélectionner les nœuds de stockage les plus appropriés pour placer les données, en respectant certaines contraintes : la conformité avec les politiques de régulation des autorités, et la préférence des utilisateurs en termes de sécurité et de confidentialité. L’objectif est également de fournir des mécanismes de réparation des données, pour répondre aux éventuelles pannes ;
La gestion des données mutables, c’est-à-dire qui peuvent être modifiées après leur création, sur le stockage pair-à-pair. Le partage des données doit être chiffré de bout en bout et seuls les pairs autorisés doivent pouvoir déchiffrer les données. La fusion des modifications concurrentes peut être effectuée une fois que ces modifications ont été reçues et déchiffrées par les pairs autorisés ;
L’étude de nouvelles techniques pour gérer les "attaques Sybil" et "pannes byzantines", c’est-à-dire des nœuds malveillants, dans le contexte du stockage distribué non fiable. L’objectif est ici d’offrir des garanties plus fortes, en termes de tolérance aux pannes, d'intégrité des données et de sécurité ;
Le développement d’un mécanisme de sécurité de données, pour permettre de stocker les données de manière sécurisée. L’objectif sera, enfin, de proposer un mécanisme de sécurité adapté aux systèmes distribués sans autorité centrale qui gère les droits d'accès des utilisateurs aux documents partagés, de bout en bout, c’est-à-dire que seul l’utilisateur final pourra déchiffrer, ce qui n’est aujourd’hui pas le cas chez les grands fournisseurs Cloud.

Ces quatre axes ont pour objectif global de proposer, en s’appuyant sur les compétences des équipes-projets Inria, un Cloud souverain, performant, capable de répondre aussi efficacement que les fournisseurs existants aux besoins des utilisateurs en termes de stockage, tout en respectant la confidentialité et la sécurité de leurs données.

Le contrat particulier entre Inria et Hive vient d’être signé fin décembre 2022. Les travaux de recherche de ce Défi débutent cette année avec le recrutement début février de trois stagiaires chez Inria et Hive et de quatre doctorants un peu plus tard dans l’année.