Culture & Société

Allier mathématiques et machine learning pour défricher les réseaux sociaux

Date:
Mis à jour le 11/12/2024
Politiques, marques, clubs sportifs, médias… Comment peuvent-ils cibler leurs communautés sur les réseaux sociaux pour mieux interagir avec elles ? Et sur le Web, comment conserver le contrôle de ses données ? La nouvelle équipe-projet ARGO commune entre le Centre Inria de Paris et l’ENS-PSL cherche notamment à répondre à ces questions. Sa recette pour y parvenir : allier algorithmique des graphes et machine learning.
Photo de groupe de l'équipe ARGO.
Photo de groupe de l'équipe-projet ARGO.

Explorer les réseaux sociaux grâce à l’algorithmique

Vous l’avez peut-être remarqué : sur les réseaux sociaux, certaines personnes que vous ne connaissez absolument pas sont pourtant susceptibles de partager avec vous un grand nombre de contacts. « Cela signifie que vous faites partie de la même communauté mais sans le savoir, souligne Marc Lelarge, chercheur au sein de la nouvelle équipe-projet commune ARGO (Apprentissage, graphes et optimisation distribuée). Pour détecter ces communautés, nous créons des algorithmes en partant d’une seule information – qui est connecté avec qui – sans avoir le moindre indice sur le nom des personnes ou le type d’interactions entre elles. Nous cherchons à connaître les limites de ces algorithmes pour qu’ils soient le plus efficaces possible. » 

Représentation, sous la forme de graphe, d'une détection de communautés et mettant en lumière les groupes formés par des individus qui interagissent.
La détection de communautés vise à mettre en lumière les groupes formés par des individus qui interagissent plus fréquemment entre eux. Par exemple, un réseau social peut être représenté par un graphe où l’ensemble des sommets (nœuds) représente les individus et l’ensemble des arêtes (edge) leurs interactions. Les avantages de la détection de communautés sont nombreux : identification de profils types, actions ciblées, amélioration des recommandations, réorganisation, identification d’acteurs centraux ou influents. (Image : Creative Commons Attribution 4.0 International).

 

Les chercheurs d’ARGO s’intéressent également à l'optimisation décentralisée, une méthode mathématique qui permet d’entraîner un modèle d’apprentissage, tout en gardant le contrôle de ses données, sans recourir aux capacités de calcul et de stockage des GAFAM (Google, Apple, Facebook, Amazon, Microsoft). 

Combiner algorithmique des graphes et machine learning

À l’origine, l’équipe-projet commune ARGO est la spin-off d’une autre équipe, DYOGENE (Dynamics of Geometric Networks) commune au département informatique de l’École normale supérieure de Paris et basée au centre Inria de Paris. « DYOGENE étudie les mathématiques des réseaux géométriques, issus de réseaux de communication, avec des techniques de modélisation probabiliste, comme les processus ponctuels », explique Marc Lelarge. 

Sa petite sœur, ARGO, dirigée par Ana Bušić, est née de la volonté d’aller plus loin comme le souligne Marc Lelarge : « Nous avons eu l’idée d’enrichir nos travaux avec des techniques d’apprentissage machine et d’y consacrer une équipe dédiée, poursuit le chercheur. Parce que nous collaborons depuis des années ensemble, il a été facile de nous réunir autour d’un intérêt collectif pour le machine learning, avec une forte composante sur l’algorithmique des graphes que nous avions déjà développée. »

Repérer les communautés et contrôler les données

Pour étudier en profondeur les réseaux sociaux, ARGO utilise des "algorithmes spectraux".  « Autrement dit, nous réalisons une analyse mathématique dénommée "analyse de Fourier" pour extraire des informations de données aux structures irrégulières comme, par exemple, les réseaux sociaux, précise Marc Lelarge. L’efficacité de cette analyse et son interprétation graphique permettent de repérer aisément les communautés. » Pour améliorer encore cette détection, les chercheurs recourent à des méthodes d’apprentissage machine non supervisé : les algorithmes apprennent alors à trouver des groupes à partir de données non étiquetées (non connues a priori), ainsi que des relations entre les variables.

 

Cette vidéo illustre la détection de deux communautés : au début les individus sont en ordre aléatoire et on ne voit aucune structure de connexion dans la matrice d'interaction, puis lorsque les individus sont rangés selon leur communauté, la structure des interactions fortes au sein de la communauté apparait grâce aux zones plus foncées.

 

Autre défi que compte relever l’équipe ARGO :  le contrôle des données. « Plutôt que de centraliser l’apprentissage sur un même serveur avec le risque de perdre le contrôle des données, celui-ci est distribué à un grand nombre d’utilisateurs dotés de moyens de calculs plus réduits, précise Kevin Scaman, chercheur au sein de l’équipe. Nous créons des algorithmes pour organiser et synchroniser cet apprentissage commun et décentralisé. C’est ce processus qu’on appelle l’optimisation décentralisée. » 

Schéma explicatif de l'apprentissage décentralisé.
Les chercheurs d'ARGO explorent l'optimisation décentralisée, permettant de préserver le contrôle des données, sans dépendre des capacités de calcul et de stockage des GAFAM. L'apprentissage décentralisé consiste à entraîner des modèles d'apprentissage automatique sur des données locales, sans avoir à les partager de manière centralisée.

L’approche consiste à transmettre des gradients d’une fonction correspondant à la performance d’un modèle d’apprentissage qu’on veut améliorer, à des utilisateurs voisins ou connectés en permanence entre eux. Pour ce faire, les chercheurs utilisent des algorithmes de communication type Gossip (bavardage), afin de réaliser l’apprentissage d’un modèle à partir du simple calcul des moyennes locales entre utilisateurs. Cela, sans l’intervention d’un serveur central synchronisant les transferts d’informations. Une solution pour améliorer la performance d’un modèle de machine learning, tout en protégeant les données utilisées pour l’apprentissage.

Schéma explicatif de l'apprentissage décentralisé.
L'apprentissage décentralisé présente plusieurs avantages en termes de protection des données : conservation des données sur site, contrôle direct, confidentialité améliorée, réduction du risque de violation de données, transparence et confiance.

Des perspectives prometteuses

D’ores et déjà, les résultats ne se font pas attendre pour cette équipe tout juste constituée... Les chercheurs d’ARGO ont publié ainsi des articles lors de conférences majeures dans le domaine du machine learning, comme NeurIPS (Neural Information Processing Systems) ou ICML (International Conference on Machine Learning). « L’un de nos doctorants a même obtenu un Best Paper Awards à NeurIPS, se félicite Marc Lelarge. Certains d’entre eux sont recrutés chez Inria, tel Hadrien Hendrikx à Grenoble, d’autres créent des startups innovantes, comme Guided Energy, fondée par Éric Daoud-Attoyan. Nous sommes fiers du travail de qualité des nombreux jeunes chercheurs que nous accueillons ! » 

Très dynamique, l’équipe participe aussi à plusieurs projets prometteurs, comme le Défi Inria FedMalin, autour de l’apprentissage distribué. Autre perspective positive : « Nous avons intégré très récemment un PEPR (Programme et équipements prioritaires de recherche), sur le projet REDEEM, se réjouit Kevin Scaman. Ce projet sur quatre ans réunit quatre équipes (DRIM du LIRIS, LIST du CEA, SYMPAS de l’École polytechnique, MAGNET du centre Inria de l'Université de Lille) en plus d’ARGO, pour coopérer sur des questions de souveraineté des données à partir de méthodes d’apprentissage décentralisé. Il est moteur pour notre équipe, puisqu’il va nous permettre de recruter trois nouveaux doctorants. » À suivre donc…

Optimiser les réseaux d’énergie renouvelable

Présente sur de nombreux fronts, ARGO ne se limite pas aux réseaux sociaux… Dirigées par Ana Bušić, ses recherches portent également sur les réseaux d’énergie. L’objectif ? Mieux exploiter les énergies renouvelables, comme le photovoltaïque et l’éolien :

Ces énergies sont par nature intermittentes et nous cherchons à les utiliser de manière ingénieuse, évidemment quand le soleil brille et que le vent souffle, sans devoir les stocker dans des batteries coûteuses. 

Concrètement, dans le cadre d’un réseau d’énergie, il s’agit de reporter l’utilisation de l’énergie dans le temps, pour que ce soit en dehors des pics de consommation, en début de soirée par exemple. Dans cette perspective, ARGO développe des algorithmes de contrôle distribué et de l’apprentissage dit "par renforcement", pour optimiser la production d’énergie renouvelable, pour apprendre quels sont les besoins en matière d’énergie des usagers, et pour mieux exploiter la flexibilité de leur demande, en utilisant par exemple l’inertie thermique des bâtiments. 

Une synergie avec d’autres équipes Inria

Au-delà de ses propres recherches, l’équipe ARGO collabore étroitement avec d’autres équipes Inria, comme WILLOW, dont les travaux portent sur les problèmes de représentation dans le domaine de la reconnaissance visuelle et la robotique.

Photo du robot bipède Upkie.
Upkie est un robot bipède, entièrement open source, doté de roues pour l'équilibre et de jambes pour s’adapter à différents terrains. Upkie est conçu pour être construit à la maison avec des outils et des composants commandés en ligne.

« Nous avons œuvré sur le robot Upkie, entièrement open source, développé par Stéphane Caron (de WILLOW), avec l’ambition qu’il puisse être fabriqué par tout un chacun, décrit Marc Lelarge. Upkie se déplace sur deux roues. Pour qu’il soit stable, il est doté d’un mécanisme de contrôle actif. Nous cherchons à concevoir des algorithmes pour le faire tenir droit dans toutes les situations, même quand on le charge avec une masse inconnue. » 

ARGO collabore également sur la thématique de l’optimisation distribuée avec l’équipe SIERRA (Inria, ENS-PSL, CNRS), spécialisée en machine learning.

En savoir plus

Tout public : 

Pour les experts :