Le géant des puces rachète l’éditeur du scheduler open-source Slurm, une pièce maîtresse pour le calcul intensif et l’intelligence artificielle, afin de consolider son écosystème technologique. La transaction, annoncée en mars, est effective depuis le 1er juillet. Cette opération stratégique démontre l’importance croissante de l’orchestration logicielle dans la course à la suprématie technologique.

Une acquisition clé pour le leadership hpc et l’infrastructure ia

Nvidia a finalisé le 1er juillet 2024 l’acquisition à 100% de SchedMD, l’entreprise derrière le logiciel de gestion Slurm. Fondée en 2011 à Ann Arbor, Michigan, SchedMD et ses environ 50 employés intègrent désormais le Nvidia Accelerated Computing Group. Duncan Poole, son ancien CEO, prend le rôle de président de la communauté Slurm au sein du géant américain.

Slurm est le système de gestion de jobs dominant dans le calcul haute performance. Actuellement, il orchestre 306 des 500 supercalculateurs les plus puissants au monde, soit 61,2% du classement TOP500 de novembre 2024. Cette liste inclut Frontier, le numéro un mondial situé au Oak Ridge National Laboratory.

Cette acquisition stratégique permet à Nvidia d’intégrer nativement cette couche logicielle essentielle à son portefeuille matériel, incluant les GPU et les systèmes DGX SuperPOD. Jensen Huang, CEO de Nvidia, a déclaré que cette intégration s’engage à offrir une pile technologique unifiée et optimisée pour le calcul accéléré. Cette consolidation intervient alors que le segment Data Center de Nvidia a généré 26,3 milliards de dollars de revenus au deuxième trimestre 2025, en hausse de 154% sur un an.

Le rôle central de slurm dans l’écosystème du calcul et du cloud

Slurm, pour Simple Linux Utility for Resource Management, orchestre l’exécution des tâches de calcul sur des milliers de processeurs et GPU, maximisant l’utilisation des ressources. Développé initialement au Lawrence Livermore National Lab en 2003, ce logiciel open-source sous licence GPLv2 est géré commercialement par SchedMD depuis 2011.

Ses fonctionnalités incluent un scheduling multi-tenant conscient des GPU, avec un support natif pour NVML, CUDA et InfiniBand. Les versions récentes, comme Slurm 24.11 publiée en novembre 2024, intègrent déjà des optimisations spécifiques pour les plateformes Nvidia DGX, essentielles pour les workloads d’IA.

Déployé dans plus de 120 pays sur plus de 50 000 clusters, Slurm gère quotidiennement des dizaines de millions de jobs. Sa pénétration couvre aussi bien les simulations scientifiques traditionnelles que l’entraînement des grands modèles d’intelligence artificielle, devenant un standard pour l’infrastructure cloud dédiée au calcul.

Une vision stratégique pour l’innovation open-source

Les déclarations officielles soulignent l’ambition derrière cette opération. « Slurm est le standard de facto pour l’ordonnancement dans le HPC et l’IA. Son intégration dans notre plateforme accélèrera la capacité des chercheurs et des entreprises à résoudre les problèmes les plus complexes du monde », a affirmé Jensen Huang.

Duncan Poole, désormais président de la communauté Slurm chez Nvidia, a ajouté : « Rejoindre Nvidia nous donne l’échelle et les ressources pour accélérer l’innovation autour de Slurm, au bénéfice de toute la communauté open-source et des utilisateurs finaux ». Il conserve un rôle de leadership dans l’évolution du projet, garantissant la poursuite de l’innovation open-source.

Consolider la domination sur le marché des supercalculateurs et de l’ia

Cette acquisition s’inscrit dans une convergence accélérée entre les supercalculateurs traditionnels et les infrastructures d’entraînement d’IA massives. Contrôler la couche d’orchestration logicielle devient un enjeu critique pour les performances et l’efficacité de ces systèmes.

SchedMD rejoint ainsi un puzzle stratégique construit par Nvidia ces dernières années, incluant l’acquisition de Mellanox en 2020 pour 6,9 milliards de dollars et celle de Run:ai en 2024. L’objectif est clair : proposer une offre intégrée « de la puce au cluster » qui verrouille l’écosystème technologique et renforce la position de Nvidia sur le marché des supercalculateurs.

Perspectives : optimisations et feuille de route intégrée

Les prochaines versions de Slurm, dont la 25.02 prévue en février 2025, devraient intégrer des optimisations profondes pour les dernières plateformes Nvidia, comme le superpuce GB200 NVL72. Des synergies avec la technologie Run:ai sont également anticipées pour les charges de travail d’IA, visant une gestion de ressources encore plus efficiente.

Des partenariats avec des fournisseurs cloud et des constructeurs sont déjà actifs. Microsoft Azure propose Slurm sur ses instances ND H100 v5 depuis septembre 2024, tandis qu’AWS l’intègre dans ParallelCluster. Des collaborations avec HPE pour les systèmes Cray Shasta et avec Dell pour les PowerEdge prévoient des offres intégrant Slurm optimisé par Nvidia.

En s’appropriant l’outil qui orchestre la majorité des supercalculateurs de la planète, Nvidia renforce considérablement son influence sur les futures infrastructures de calcul scientifique et d’intelligence artificielle. La prochaine keynote « Unified HPC/AI Scheduling » au GTC 2025 en mars apportera des précisions sur cette feuille de route intégrée, dessinant les contours du futur de l’informatique de pointe.