Sobriété numérique

Topal : vers une réduction de l’empreinte écologique du HPC

Date:
Mis à jour le 24/05/2024
La nouvelle équipe-projet Topal du centre Inria de l’université de Bordeaux veut relever un défi qui conditionne l’avenir du calcul de haute performance : réduire la facture énergétique. La solution ? Optimiser l’utilisation raisonnée des ressources HPC les plus courantes. Le point avec Olivier Beaumont, le responsable de l’équipe.
Equipe TOPAL
© Inria / Photo M. Magnin

La facture énergétique élevée du HPC

Diminuer la consommation énergétique des supercalculateurs de type calcul haute performance (HPC), en se concentrant notamment sur les opérations les plus courantes et les plus énergivores, et augmenter la durée de vie des ressources de calcul : tels sont les objectifs que s’est fixés la nouvelle équipe-projet Topal, créée récemment en collaboration avec l’université de Bordeaux et Bordeaux INP. « La première thématique qui émerge aujourd’hui sur le plan international est une problématique énergie-carbone qui répond pour une part, à des contraintes matérielles et pour une autre part, à une demande de sobriété énergétique qui émerge dans notre domaine », explique Olivier Beaumont, responsable de l’équipe-projet Topal.

La dépendance énergétique des applications HPC actuelles est en effet colossale. Au printemps 2022, la communauté scientifique saluait la création de Frontier, le premier supercalculateur "exascale", c’est-à-dire capable de réaliser 1018 calculs par seconde soit un milliard de milliards. Opéré par le département américain de l’énergie et équipé de plus de huit millions de cœurs de calculs, l’ordinateur le plus puissant au monde raflait aussi la deuxième place du Green500 qui classe les 500 supercalculateurs les plus performants en termes d’efficacité énergétique , avec une consommation électrique mesurée officiellement à 21,1 MW, soit la consommation globale d’une ville de 10 000 habitants. « Parvenir à acheminer autant d’énergie dans un seul bâtiment commence à devenir un vrai défi qui limite les objectifs de performance du HPC », poursuit Olivier Beaumont. La communauté scientifique n’a donc pas d’autre choix : il faut innover.

Une utilisation raisonnée des ressources

« Historiquement, nous fournissons un panel d’applications HPC – des briques de modélisation et d’apprentissage automatique – qui reposent sur un nombre très important de données », précise Olivier Beaumont. Cela sert par exemple à l’étude de systèmes complexes.

L’enjeu désormais : concilier l’amélioration de ces outils numériques et la réduction des coûts énergétiques de calcul. « L’équipe développe ainsi des algorithmes pour optimiser l’exploitation des ressources de calcul et permettre une utilisation raisonnée de chacune, indique Olivier Beaumont. Nous avons choisi de concentrer nos efforts de recherche sur les opérations les plus récurrentes pour maximiser l’impact sur l’efficacité des calculs et minimiser l’empreinte écologique de nos recherches ». Cela revient à identifier les applications qui tournent le plus souvent sur les modèles HPC et à en proposer une version optimisée et raisonnée, facile à utiliser.

Des outils sur mesure

Grâce à ces outils, les scientifiques en modélisation sont désormais capables de moduler l’action des microprocesseurs selon leurs besoins : minimiser le transfert des données, privilégier les ressources de calcul les plus économes en énergie, stocker une donnée qui sera exploitée plus tard, ou même ralentir la vitesse d’exécution du calcul pour éviter de faire tourner les serveurs "à vide" ou "à fond" quand ce n’est pas nécessaire. Toutes ces actions concourent à la réduction de la facture énergétique globale.

Autre problème auquel les scientifiques sont confrontés avec l’augmentation de la puissance des calculateurs : la vitesse des opérations de calcul croît plus vite que celle des communications, ce qui nécessite de revoir les formats de données. « Le moyen d’éviter qu’il y ait trop de données se déplaçant et ralentissant les calculs qui les utilisent, c’est de transférer ces données sous un format compressé, explique Olivier Beaumont. Comme la compression consomme elle-même temps et énergie, ce n’est pas si simple. C’est un des problèmes sur lesquels nous travaillons aujourd’hui. »

En apprentissage automatique, la problématique est différente. « Ici, nous cherchons à libérer de la mémoire et à décarboner la filière en augmentant la durée de vie des ressources de calcul, c’est-à-dire en permettant de réaliser les calculs sur des ressources qui ne disposent pas a priori de la mémoire nécessaire », poursuit le chercheur. C’est un enjeu majeur du développement de l’apprentissage automatique. Si l’empreinte carbone par calcul ne cesse de décroître, la production de ces ressources mobilise un nombre impressionnant de machines sur de très longues durées. « L’apprentissage pour des agents conversationnels comme ChatGPT, par exemple, consomme une quantité considérable de ressources pendant un temps très long, même si OpenAI n’a pas communiqué les chiffres exacts ».

Augmenter la durée de vie des microprocesseurs

Dans ce domaine, le turnover des machines est impressionnant. Avec la montée en puissance des données à traiter, les microprocesseurs GPU qui disposent d’une mémoire limitée sont régulièrement déclassés du TOP500 et démantelés pour être remplacés par des microprocesseurs de nouvelle génération, d’autres GPU ou des TPU. « Arriver à concevoir des ressources de calcul qui consomment moins de mémoire permet potentiellement de retarder le renouvellement du parc d’apprentissage », souligne Olivier Beaumont. Quitte à augmenter le transfert de données ou à supprimer une ressource et à la recalculer plus tard. Bref, à accroître les temps de calcul et l’énergie consommée, mais le moins possible.

Les scientifiques de l'équipe-projet Topal sont ainsi parvenus à identifier de nombreux problèmes pour lesquels ils ont pu diviser la consommation-mémoire par deux ou quatre, tout en augmentant le temps de calcul de seulement 10 %. Dans un contexte général de décarbonation, des collaborations ont été mises en place. Par exemple, entre Topal et Qarnot Computing, un fournisseur de puissance de calcul qui valorise la chaleur perdue des serveurs informatiques pour chauffer l’eau des piscines, ou alimenter les réseaux d’eau chaude des immeubles collectifs (dont les demandes en production de chaleur sont assez stables dans le temps). Dans le cadre de ce défi commun Pulse Inria-Qarnot, quels sont les objectifs pour Topal ? Il s’agit de créer un algorithme capable d’envoyer les tâches de calcul là où il y a des besoins de chaleur à un instant donné, tout en proposant à l’utilisateur de définir un compromis entre prix, temps de calcul et impact carbone. Un moyen judicieux de réduire la facture énergétique globale.