L’intégration de Slurm, le standard open-source gérant 60% des Top500, s’engage à accélérer les supercalculateurs et les workflows d’IA à l’échelle mondiale.

Une acquisition stratégique pour unifier l’écosystème du calcul

Le 17 décembre 2024, NVIDIA a annoncé l’acquisition de SchedMD, l’éditeur du gestionnaire de charges de travail Slurm. Cette opération, finalisée au premier trimestre 2025 selon le dernier earnings call de NVIDIA, s’efforce de résoudre un obstacle majeur : la fragmentation des solutions de scheduling dans l’écosystème du calcul haute performance et de l’intelligence artificielle. En intégrant le standard de facto du HPC mondial, NVIDIA cherche à offrir une plateforme unifiée et performante pour le calcul accéléré.

Jensen Huang, CEO de NVIDIA, a immédiatement souligné l’importance de cette prise de contrôle : « Slurm est le standard de facto pour le HPC mondial ». Cette déclaration s’appuie sur un fait vérifiable : en novembre 2024, Slurm équipait 60% des 500 supercalculateurs les plus puissants de la planète. Grant Grummer, CEO de SchedMD, a pour sa part rappelé une collaboration étroite initiée dès 2015, qui a notamment abouti à l’intégration des outils de monitoring GPU NVIDIA (DCGM) dans la version 24.11 de Slurm.

L’objectif est clair : renforcer la plateforme NVIDIA pour les supercalculateurs et les workflows d’IA agentique en permettant un scaling massif et efficace, jusqu’à des dizaines de milliers de nœuds. Cette acquisition, de taille modeste, n’a pas rencontré d’obstacles réglementaires majeurs aux États-Unis ou en Europe.

La domination incontestée de slurm dans le calcul scientifique

Le poids de Slurm dans le paysage du calcul intensif est incontestable. Actuellement, le logiciel orchestre plus de 14 millions de nœuds de calcul à travers le monde. Sa domination s’étend des laboratoires de recherche les plus prestigieux, comme le Lawrence Livermore National Laboratory, Oak Ridge ou le CERN, aux géants de l’IA que sont Meta et OpenAI.

Meta, par exemple, utilise Slurm pour des tâches critiques comme le fine-tuning de son modèle Llama 3 sur des grappes de dizaines de milliers de GPU. Cette omniprésence est le fruit du travail de SchedMD, une société d’une cinquantaine d’employés fondée en 2011, qui a bâti son leadership sur un modèle open-source. Ses revenus, estimés entre 20 et 30 millions de dollars en 2024, proviennent principalement du support enterprise et de produits comme SlurmDB, consolidant son rôle dans la gestion des charges de travail.

La consolidation de l’écosystème par nvidia

Cette acquisition s’inscrit dans une stratégie agressive de consolidation de l’écosystème HPC et IA par NVIDIA. Le segment Data Center de la firme, dont les revenus ont explosé de 409% en 2024 pour atteindre 47,5 milliards de dollars, représente désormais son principal moteur de croissance. NVIDIA équipe actuellement 172 des systèmes du Top500, représentant une puissance cumulée de 5,8 exaflops.

Techniquement, l’intégration de Slurm doit permettre une optimisation native des plateformes NVIDIA. Les prochaines versions du logiciel, comme la 25.02 prévue pour février 2025, apporteront un support direct pour les superpuces Grace Blackwell, notamment les racks GB200 NVL72 regroupant 256 GPU. Cette synergie logicielle s’ajoute aux récentes acquisitions de Run:ai (orchestration IA, 700M$) et Deci (optimisation de modèles, 100M$), dessinant un écosystème logiciel complet autour du silicium NVIDIA.

Les réactions du marché et la nouvelle donne concurrentielle

Les analystes voient dans cette opération une consolidation du leadership déjà écrasant de NVIDIA, qui détiendrait environ 85% du marché des GPU pour le HPC. Selon Moor Insights, cette acquisition réduit la dépendance aux solutions concurrentes comme PBS Pro ou LSF et pourrait standardiser Slurm comme l’interface universelle pour le calcul accéléré.

La concurrence est désormais sommée de réagir. AMD, qui équipe environ 10% des systèmes du Top500 avec ses accélérateurs MI300X, a récemment renforcé ses capacités logicielles via l’acquisition de HPE. Intel, avec sa plateforme Gaudi 3, s’appuie sur des partenariats avec des éditeurs comme Univa. Dans le cloud, AWS propose déjà une intégration native de Slurm dans son service ParallelCluster, un mouvement clé dans l’infrastructure cloud.

Si le montant de l’acquisition n’a pas été officiellement divulgué, des estimations préalables évaluaient SchedMD entre 200 et 500 millions de dollars. L’annonce a d’ailleurs entraîné une hausse de près de 2% de la valorisation boursière de NVIDIA.

La feuille de route technique et l’impact futur

Les perspectives techniques sont déjà tracées. La feuille de route de Slurm prévoit un support de plus en plus poussé des architectures NVIDIA, avec des fonctionnalités avancées de gestion de l’énergie (power capping) pour les GPU et une intégration renforcée avec Kubernetes via la technologie Run:ai.

Cet alignement technologique impactera directement les futurs champions du calcul. Le supercalculateur El Capitan, attendu en 2026 et pressenti pour la première place du Top500, sera construit sur une architecture Slurm et NVIDIA. Des démonstrations intégrées sont d’ores et déjà attendues lors de la grande conférence SC25 en novembre 2025, et seront très probablement préfigurées lors du GTC de NVIDIA en mars 2025.

Le marché du HPC, évalué à 52 milliards de dollars en 2024, devrait atteindre 85 milliards d’ici 2028. En s’appropriant la couche logicielle de scheduling, essentielle et en croissance (1,2 à 2,5 Md$ sur la même période), NVIDIA ne se contente pas de vendre des puces. Elle verrouille l’ensemble de la pile technologique du calcul du futur. Surveillez les annonces du GTC 2025 : elles dessineront concrètement les contours de cette nouvelle ère pour les supercalculateurs et l’intelligence artificielle.