La science des données en plein essor
Les techniques d’apprentissage machine connaissent depuis quelques années un essor fulgurant et trouvent des usages dans tous les pans de l’économie. De la banque aux télécommunications, en passant par le commerce, la santé, l’industrie, les loisirs, la défense, etc., tous les secteurs cherchent à tirer le meilleur parti des données disponibles afin d’étoffer leur offre de services, de gagner en compétitivité, d’améliorer les processus de production (par exemple en réduisant leur empreinte carbone) ou d’optimiser l’usage des ressources (comme l’énergie, les matériaux, de plus en plus coûteux).
Modal est l’une des équipes-projets Inria à la pointe des recherches en apprentissage machine, qui consiste à utiliser les capacités des outils numériques (ordinateurs et algorithmes) pour analyser des données complexes et rendre intelligible l’information qu’elles contiennent – une tâche qui dépasse largement l’entendement humain, tant la quantité et la diversité des données est importante !
Des données représentées en graphes
L’équipe s’intéresse entre autres à l’apprentissage non supervisé, une technique dont Christophe Biernacki résume l’objectif en comparaison au cadre supervisé. « L’apprentissage non supervisé (dit aussi ‘clustering’) exploite des algorithmes permettant de structurer automatiquement des données pour découvrir des connaissances nouvelles et en donner une vision synthétique sous forme de catégories (ou de ‘clusters’). Le clustering se présente alors comme un prolongement naturel de l’apprentissage supervisé où les catégories sont connues a priori, issues d’une expertise humaine préalablement existante et donc possiblement plus limitée. »
Les données qu’exploitent les algorithmes résultent de réseaux de capteurs, d’objets connectés, des usages d’Internet, etc. Elles ont la particularité de partager comme propriété commune une représentation sous forme de graphes, c’est-à-dire de « nœuds » connectés entre eux par des « liens ». Disponibles de fait dans des volumes de plus en plus importants (comme les données issues des réseaux sociaux), ces graphes peuvent encore se complexifier lorsqu’on considère que ces nœuds, ou ces liens, peuvent être décrits par des informations complémentaires de nature variée : par exemple, le contenu d’un message peut qualifier un lien. Traiter ces données complexes avec l’apprentissage non supervisé est l’une des spécialités de Modal, dont les chercheurs développent des méthodes exploitables de façon aussi « agnostique » que possible (c’est-à-dire capables de fonctionner avec tout type de machine ou de système informatique), tout en apportant des garanties sur leurs performances par l’usage d’outils probabilistes.
Les apports de l’apprentissage sur graphes
L’une des méthodes les plus prometteuses vers laquelle l’équipe oriente ses recherches est le machine learning on graphs (l’apprentissage sur les graphes), une thématique nouvelle qu’a apportée le chercheur Hemant Tyagi en intégrant Modal. Il nous en explique le principe : « Dans de nombreux problèmes rencontrés par exemple en sciences ou en ingénierie, nous avons accès à des données sous la forme de relations par paires d’objets au sein d’un ensemble. Ces relations peuvent être très naturellement représentées par un graphe, dont les nœuds correspondent aux objets et les arêtes représentent les paires d'objets pour lesquels des informations sont disponibles. L'objectif de l’apprentissage non supervisé sur les graphes est alors de découvrir les catégories sous-jacentes contenues dans cette structure. En d’autres termes, il s’agit de savoir quels objets communiquent prioritairement et quelle est la nature de l’information échangée. »
Christophe Biernacki et Hemant Tyagi s’intéressent plus spécifiquement à des graphes complexes (multi-dimensionnels et séquentiels), dont les réseaux sociaux sont un exemple typique : les utilisateurs sont connectés entre eux (un réseau est donc représentable par un graphe), ils sont parfois membres simultanément de plusieurs réseaux (les graphes ont ainsi des dimensions multiples), ils publient du contenu en permanence (ces graphes multidimensionnels évoluent dans le temps). Pour la recherche, cette complexité supplémentaire offre un terrain de jeu forcément conséquent !
Des probabilités pour modéliser les réseaux informatiques
Si ces travaux s’appuient essentiellement sur les mathématiques et les probabilités, qui permettent une étude rigoureuse des propriétés et de l’efficacité de l’apprentissage, ils trouvent très naturellement des applications concrètes. Les deux chercheurs s’impliquent ainsi dans des collaborations avec le monde industriel, notamment au travers de thèses en convention CIFRE.« Nous travaillons par exemple avec un éditeur de logiciels de sécurité sur un projet où nous appliquons l’apprentissage sur graphes séquentiels à la détection de cyberattaques, explique Hemant Tyagi. Nous utilisons des modèles probabilistes afin de caractériser le fonctionnement ‘normal’ de réseaux informatiques. »
En analysant ensuite les données informatiques à l’aide de ces modélisations, nos algorithmes de graph learning sont capables de reconnaître un mode de fonctionnement ‘anormal’ qui peut être la signature d’une cybermenace, possiblement non observée jusqu’alors.
Des applications innovantes à la logistique
Un autre thème d’application des recherches, la logistique, intéresse de grands réseaux de distribution et de vente. Ainsi, comment optimiser les approvisionnements, afin d’éviter les ruptures de stocks ou les surstocks, tout en proposant à des clients un catalogue comportant de nombreuses références ? Et que peut apporter l’apprentissage sur graphe à la prédiction des ventes, par nature très difficile ?
« Pour optimiser leur stratégie d’approvisionnement, les enseignes de distribution pourraient s’appuyer sur des vases communicants que sont les potentiels reports de vente d’un produit (indisponible) vers un autre à peu près équivalent (mais disponible). Cependant, ce graphe dit ‘de substituabilité’ n’est pas une donnée observée en pratique puisque les enseignes retiennent uniquement les ventes de produits in fine, et leur éventuelle rupture de stock, » détaille Christophe Biernacki.
L’enjeu de la thèse est alors d’estimer les fameuses ‘probabilités de substituabilité’ entre produits, ce qui correspond à une estimation de liens particuliers entre produits. Il s’agit donc d’une information précieuse pour le vendeur… que seul l’apprentissage sur graphe est en mesure de dévoiler !
L’apprentissage machine de demain : frugal et démocratisé
Ces deux projets réussis témoignent du potentiel des recherches... et les deux chercheurs ne comptent pas s’arrêter en si bon chemin. Leur prochain défi ? La frugalité – ou comment élaborer des algorithmes aussi performants avec moins de données. L’apprentissage machine, très gourmand en données pour réaliser des prédictions les plus précises possibles, est aussi très consommateur de ressources informatiques (mémoire, capacité de calcul) et énergétiques. Il s’agit alors de développer des algorithmes offrant les mêmes garanties avec des moyens moindres. L’enjeu n’est pas seulement scientifique ou écologique, il est aussi sociétal.
« Dotées d’importants moyens de calculs et de bases données étoffées, les géants du numérique (ou les États) sont naturellement leaders sur ces technologies d’apprentissage… mais tout le monde doit pouvoir bénéficier de ces innovations. En travaillant sur des méthodes plus frugales, nous souhaitons donner la possibilité à de plus petits acteurs d’y avoir accès et de développer leurs activités », conclut Christophe Biernacki.
- Intelligence des données par Christophe Biernacki (vidéo), Université de Lille, 10/3/2017.
- Seminar@SystemX sur le thème « Frugal Gaussian clustering of huge imbalanced datasets » (vidéo), animé par Christophe Biernacki, IRT SystemX, 22/12/2022.
- Data science et performance industrielle, Inria, 7/5/2021.
- Apprentissage supervisé et non supervisé : les différencier et les combiner, LeMagIT, 14/10/2020.