Un bond dans la chasse aux ransomwares

Date:
Mis à jour le 08/04/2021
Au centre Inria Rennes – Bretagne Atlantique, le Laboratoire de haute sécurité (LHS) a mis au point une technique innovante contre les ransomwares. Au lieu d'utiliser les bases de signatures à la façon d'un antivirus ou encore de surveiller les comportements suspects dans le système, le nouvel outil s'intéresse uniquement à la modification des données pour y débusquer les tentatives de chiffrement illégitimes. Baptisée DAD (Data Aware Defense) et pas encore commercialisée, cette technologie fait l'objet d'un brevet conjoint Inria et DGA.
Illustration ransomware
© Inria / photo C. Morel

Se faufilant d'une façon ou d'une autre dans les ordinateurs, les ransomwares chiffrent les fichiers de leurs victimes avant d'exiger de l'argent ou autre chose en échange d'une clé pour décoder les données.

Apparu il y a cinq ans, ce type de menace est en passe de devenir une énorme nuisance.
« Ce qui a vraiment lancé l'épidémie, c'est l'arrivée du Bitcoin. Les escrocs peuvent maintenant toucher la rançon d'une façon complètement anonyme et sans risque de se faire pincer », résume le scientifique Jean-Louis Lanet , responsable du LHS, le Laboratoire de haute sécurité fondé par Inria, CentraleSupelec, le CNRS, la région Bretagne et la direction générale de l'armement (DGA).
« Les antivirus fonctionnent bien contre les ransomwares tant qu'ils savent ce qu'ils sont censés chercher. Autrement dit, tant que leur base de signatures est à jour. Mais s'ils tombent sur un ransomware qu'ils ne connaissent pas encore, alors ils ne servent à rien. »  

Percevant les prémices du phénomène en 2014, les chercheurs du LHS ont choisi d'aborder le problème sous un angle complètement différent.
« Nous ne nous intéressons pas du tout à la structure du ransomware ou à son impact sur le système. Nous regardons uniquement comment il transforme les données. Si vous avez 10 000 fichiers jpeg sur votre disque dur, nous gardons un œil sur chacun d'eux ou, plus exactement, nous commençons à les surveiller à l'instant où quelqu'un les manipule. Nous ne regardons pas comment étaient les données avant cette manipulation, mais nous avons un modèle de ce à quoi elles devraient ressembler après. Nous disposons de modèles basés sur des chaînes de Markov pour chacun des objets dans le système. Si les données se mettent à diverger du modèle quand elles se transforment, alors quelque chose de suspect est à l'œuvre. »

Impact minimal sur les performances du système

L'utilisation des chaînes de Markov présente un autre avantage :
« C'est un modèle mathématique très léger. La surveillance en temps réel n'aura donc qu'un impact minimal sur le système. Il s'agit d'un point essentiel car autrement les gens seront peu enclins à utiliser l'outil. Nous avons aussi réalisé un gros travail pour éliminer les fausses alertes. Nous sommes parvenus à zéro faux positifs. Notre modèle est suffisamment précis par exemple pour dire que la modification d'une photo jpeg ne résulte pas d'un chiffrement mais tout simplement d'une rotation de l'image. »

Quand l'outil repère une divergence plus suspecte, il active la deuxième partie de la solution.
« Nous lançons un test statistique khi carré sur les données transformées. Cela nous fournit une métrique de la distribution des données dans un fichier. Si, tout à coup, nous observons un pixel complètement différent du précédent, il se passe peut-être quelque chose de bizarre. »  

Pour estimer la prédictibilité des données, les scientifiques ont passé en revue « plusieurs estimateurs statistiques comme l'entropie de Shannon ou encore le test de Kolmogorov. Nous avons mené un long travail de comparaison. Au final, c'est le test khi carré qui convient le mieux pour cette tâche. »

En pratique, « aussitôt l'alerte donnée, nous sauvegardons tous les fichiers en cours d'ouverture alors que les solutions habituelles effectuent une sauvegarde générale. »  

Parfois, un doute peut exister laissant penser que l'utilisateur lui-même procède volontairement à un chiffrement de ces données.
« Dans ce cas-là, un message apparaît sur son écran pour lui demander s'il s'agit bien d'une action délibérée de sa part. Dans les autres cas, l'outil prend la décision de tuer le processus et restaure les données. »

WannaCry immédiatement repéré

Complètement agnostique du code et intéressée uniquement par l'altération des données, la solution DAD présente un avantage inédit :
« Nous pouvons repérer tout de suite les nouveaux ransomwares. Pas besoin d'attendre que leur signature soit répertoriée dans une base d'antivirus. Quand WannaCry est arrivé, nous ne le connaissions pas et pourtant notre outil l'a immédiatement mis en quarantaine. »

De fil en aiguille, les chercheurs ont eu une autre idée.
« Pour l'instant, nous utilisons un modèle générique de l'usage des données. Mais pourquoi ne pas avoir plutôt un modèle auto-adaptatif pour chaque utilisateur ? Après tout, en entreprise le secrétaire et l'ingénieure ne manipulent pas le même type de données. Le premier utilise plutôt un traitement de texte et un tableau. La seconde recourt à des logiciels plus hétérogènes : des environnements Python, etc. Donc, nous aurions un modèle beaucoup plus riche en l'adaptant à chaque utilisateur ou utilisatrice. C'est ce sur quoi nous travaillons en ce moment. »

Commencées il y a quatre ans, ces recherches ont été menées à travers les travaux d'Aurélien Palisse dont la thèse est financée par DGA-MI. Deux ingénieurs de recherche de cette branche cybersécurité de la DGA sont aussi impliqués dans le projet :
« Colas Le Guernic , qui coencadre cette thèse, et David Lubicz à qui l'on doit l'idée d'utiliser les chaînes de Markov. La prochaine étape pour nous va consister à déployer notre solution sur le réseau d'une grande entreprise afin de nous familiariser avec certains aspects comme la maintenance à distance par exemple. Parallèlement, nous allons entamer une phase de développement pour industrialiser ce qui n'est encore qu'un prototype de recherche. L'outil sera ensuite commercialisé sur la base d'une licence par poste. Enfin, conclut Jean-Louis Lanet, il est intéressant de noter que parmi les premières thèses du LHS financées par la DGA, l'une d'entre elles va aboutir à un résultat concret avec un vrai logiciel sur le marché. »