DFKI et Inria : une collaboration active autour de l’intelligence artificielle
En janvier 2020, Inria et le Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI) organisaient un premier workshop entre leurs équipes de recherche, dans le cadre de la signature d’un protocole d’accord pour mener des travaux communs en intelligence artificielle. L’objectif : permettre aux équipes françaises et allemandes d’échanger, par groupes d'intérêt, afin de faire émerger des idées et des projets communs, avec à la clé la création de plusieurs équipes-projets communes, à l’image de Moveon, MePheSTO, ou encore IMPRESS.
Deux ans plus tard, c’est au tour du projet ENGAGE de voir le jour. Porté par Gabriel Antoniu côté Inria (équipe-projet Kerdata au centre Inria de l’Université de Rennes) et Hilko Hoffmann côté DFKI ; celui-ci s’intéresse à la manière dont les environnements de HPC (calcul haute performance) peuvent être optimisés et utilisés efficacement en conjonction avec d'autres environnements matériels pour l'intelligence artificielle.
« Nous observons, depuis plusieurs années, une convergence entre le HPC, le Big Data, et l’intelligence artificielle. Nous avions un bon cadre de travaux déjà engagés chez Inria (comme Le Défi HPC-BigData lancé en 2018) pour se permettre d’aborder ces thématiques de manière européenne », explique Gabriel Antoniu, directeur de recherche Inria et responsable de l’équipe-projet Kerdata, avant d’ajouter « cette collaboration s’est mise en place naturellement avec le DFKI, avec une majorité de chercheurs spécialisés dans le HPC chez Inria, et dans l’IA chez DFKI. »
Faire évoluer les réseaux neuronaux profonds pour des résultats plus rapides et moins énergivores
Derrière les travaux du nouveau projet franco-germanique : les réseaux neuronaux profonds (c’est-à-dire un ensemble d’algorithmes capables de simuler l’activité du cerveau humain afin de traiter les données de manière complexe en employant des modèles mathématiques avancés), aujourd’hui omniprésents dans un large éventail de domaines industriels et scientifiques. Le but : leur permettre d'être entraînés et utilisés plus rapidement pour de nouvelles tâches gourmandes en calcul, en s’appuyant notamment sur le déploiement du HPC pour l’apprentissage automatique.
Qu'il s'agisse de la reconnaissance d'images, de la détection d'environnements dynamiques, de la transition vers un processus de production plus flexible ou de la simulation des effets secondaires possibles des médicaments, les réseaux neuronaux profonds donnent en effet aujourd’hui des résultats très satisfaisants.
Mais pour fonctionner avec une grande précision dans des cas d’utilisation complexes, ils nécessitent une infrastructure extrêmement puissante, des opérations de calcul gourmandes en énergie, et surtout de grandes quantités de données d’apprentissage. Une véritable problématique, ces données n’étant, dans de nombreux cas, pas disponibles ou pas en quantité suffisante.
Verbatim
Habituellement on se base sur les données réelles, mais dans certaines situations ces données n’existent pas, soit parce que les événements que l’on essaie de modéliser sont rares, soit parce qu’il est trop coûteux ou trop difficile de mettre en place les expériences ou situations qui permettent d’avoir les données réelles.
co-directeur du projet
C’est par exemple le cas dans les domaines de la santé, dans le cadre de la détection de certains cancers, dans le secteur des véhicules autonomes, face à certaines situations particulièrement dangereuses dans le trafic routier, ou encore dans la production industrielle, où la durée de vie de nouveaux types de pièces de machine doit être prédite à l’aide de modèles, les données réelles ne pouvant pas être disponibles au moment du lancement sur le marché.
Trois axes de travail pour l’équipe franco-allemande
Pour être en mesure de traiter de telles tâches où l'on dispose de peu de données réelles permettant un entraînement efficace, l'informatique a besoin de recourir à des données synthétiques. Les données artificielles sont générées au préalable, et ce n'est qu'ensuite que le réseau neuronal est entraîné avec elles.
Cette procédure d’apprentissage, basée sur des données issues de simulation, coûte des ressources informatiques, du temps… et amène plusieurs interrogations sur la fiabilité de l’IA. Des interrogations à l’origine du premier axe de travail d’ENGAGE. « On se demande, par exemple, comment paramétrer l’apprentissage, à quelle fréquence, ou encore si le processus fait bien ce qu’on veut modéliser. Et pour s‘assurer de la qualité du modèle, il faut lancer des ensembles de simulations, avec différents paramétrages », explique Gabriel Antoniu.
Cet axe applicatif, porté notamment par l’équipe-projet Inria Datamove, à l’origine du framework Melissa, permettra ainsi la validation et la certification des systèmes d’IA par des tests ciblés avec des données générées synthétiquement par des simulations, avec pour objectif d’accroître la fiabilité de l’IA et donc d’augmenter son acceptation dans des domaines tels que la conduite autonome ou la production industrielle.
Le deuxième axe de travail d’ENGAGE, porté entre autres par l’équipe-projet Inria Kerdata (Rennes), est d’explorer différentes stratégies de déploiement pour des flux de travail d’intelligence artificielle complexes, qui impliquent des simulations et de l’analyse de données, sur des infrastructures d’exécution hybrides (Cloud et Edge ou Cloud, Edge et HPC).
Verbatim
Il existe aujourd’hui des outils pour chacune des infrastructures, mais pas pour des scénarios hybrides.
L’exploitation de ce continuum numérique amène ainsi plusieurs défis, liés notamment à la modélisation des performances et à l’hétérogénéité des ressources (capacités de traitement différentes, contraintes liées à la consommation énergétique, etc.). Dans ce contexte, l’équipe Kerdata développe une méthodologie destinée au déploiement, à la surveillance et à l'exécution d'expériences à grande échelle sur diverses infrastructures évolutives pertinentes. Elle est matérialisée par le framework E2Clab, en cours de conception et de développement dans l’équipe, il servira de cadre au travail qui sera réalisé pour cet axe.
Le troisième objectif d’ENGAGE, porté côté français par l’équipe HiePACS (Bordeaux) est axé sur la gestion des ressources, et plus précisément sur l'optimisation de l'utilisation des ressources pour les flux de travail d'intelligence artificielle en améliorant l'exploitation des opérations de calcul parallèle. À cette fin, l'équipe développe un ensemble d'outils méthodologiques et algorithmiques pour la gestion de la mémoire et l'utilisation efficace des ressources informatiques hétérogènes.
Durant trois ans, les équipes franco-allemandes vont travailler ensemble autour du déploiement du HPC pour l’apprentissage automatique, avec à la clé, peut-être, de futurs projets communs : « Ces partenariats sont toujours intéressants, car ils nous permettent, d’une part, d’établir un réseau de collaborateurs sur des sujets spécifiques, d’être au courant des centres d’intérêt de nos collègues allemands et d’élargir notre spectre d’intérêts, mais également, d’autre part, d’envisager des projets européens par la suite », conclut Gabriel Antoniu.