Le 18 décembre 2024, NVIDIA a annoncé l’acquisition de SchedMD, l’entreprise derrière le gestionnaire de charges de travail Slurm, utilisé par plus de 70% des 500 systèmes les plus puissants de la planète. Cette manœuvre stratégique, dont la clôture est prévue pour le premier trimestre 2025, intervient alors que les revenus du segment Data Center de NVIDIA ont bondi de 112% sur un an au troisième trimestre de son exercice 2025, atteignant 30,8 milliards de dollars. NVIDIA ne se contente plus de fournir le silicium ; elle prend désormais le contrôle du logiciel qui décide de son utilisation. Cette acquisition marque un tournant décisif dans la convergence HPC-IA, redéfinissant les règles du jeu pour l’ensemble de l’écosystème.
La stratégie nvidia : verrouiller l’écosystème par la maîtrise logicielle
Actuellement, une transformation majeure est en cours : la frontière entre le calcul haute performance traditionnel et l’intelligence artificielle s’efface. Les charges de travail hybrides, mêlant simulations scientifiques complexes et entraînement de modèles d’IA générative, explosent. Slurm, bien qu’omniprésent, était maintenu par SchedMD, une PME d’environ 50 salariés. Cette structure manquait des ressources nécessaires pour innover au rythme effréné qu’impose l’ère de l’IA. Le problème central pour NVIDIA était clair : sans une maîtrise directe de ce standard logiciel, l’optimisation de ses GPU pour les workloads futurs restait incomplète. Contrôler l’orchestrateur, c’est contrôler le flux même de la puissance de calcul.
Le 18 décembre 2024, NVIDIA a officiellement annoncé son intention d’acquérir SchedMD. La transaction, dont le montant n’a pas été divulgué, est en attente d’approbations réglementaires et devrait être finalisée au cours du premier trimestre 2025. Selon le communiqué officiel de NVIDIA, l’objectif affiché est de « renforcer les capacités HPC et IA ». L’objectif stratégique réel est plus profond : verrouiller l’écosystème en contrôlant le planificateur dominant, réduisant ainsi la flexibilité des clients à se tourner vers des GPU concurrents. Cette acquisition s’inscrit dans une stratégie verticale agressive, complétant une pile déjà constituée du silicium (GPU Grace Hopper, Blackwell), des logiciels (CUDA, TensorRT) et des acquisitions récentes comme Run:ai pour l’orchestration IA et Mellanox pour le réseau haute performance.
Slurm : le standard incontournable désormais au cœur de la pile nvidia
La domination de Slurm est quantifiable et vérifiée. Les données du classement TOP500 de juin 2024 sont formelles : Slurm gère plus de 70% des 500 supercalculateurs listés. Selon le rapport 2024 de SchedMD, ce logiciel orchestre plus de 20 millions de nœuds de calcul à travers le monde, est utilisé par plus de 14 000 organisations et traite environ 6 millions de jobs chaque jour. Cette pénétration est illustrée par les machines les plus prestigieuses. Le Frontier d’Oak Ridge (1,194 Exaflop/s), l’Aurora d’Argonne (1,012 Exaflop/s) et le Fugaku japonais (442 Pétaflop/s), représentant à eux trois une part massive de la puissance de calcul mondiale, utilisent tous Slurm.
Créé en 2003 par le Lawrence Livermore National Laboratory, Slurm a évolué vers une solution mature. Les versions récentes, comme la 24.11 de novembre 2024, intègrent déjà un support natif pour les workloads hybrides HPC-IA. Son fonctionnement est central : il reçoit des milliers de demandes de calcul et les ordonne intelligemment en fonction de la disponibilité des ressources (CPU, GPU, mémoire). Il permet à une seule tâche, comme l’entraînement d’un grand modèle de langage, d’utiliser des milliers de GPU en parallèle, maximisant l’utilisation du cluster et évitant toute période d’inactivité coûteuse. Des organisations aussi variées que le CERN, la NASA, Toyota ou TotalEnergies en dépendent intégralement, rendant une migration vers une alternative techniquement complexe et économiquement prohibitive.
L’intégration technique et la réaction des acteurs du marché
Les déclarations officielles révèlent les véritables enjeux. Jensen Huang, CEO de NVIDIA, a qualifié Slurm de « scheduler de fait pour le HPC », admettant ainsi son caractère incontournable, et a souligné que l’acquisition « accélère la convergence HPC-IA« . De son côté, Morris Miller, CEO de SchedMD, a reconnu que « rejoindre NVIDIA permet de faire évoluer Slurm pour l’ère de l’IA à l’échelle exascale », un aveu implicite des limites d’une PME face à l’ampleur des investissements requis.
Le plan d’intégration technique, tel que décrit par NVIDIA, prévoit de faire de Slurm un composant natif de sa suite logicielle HPC. Il sera intégré au Base Command Manager, l’interface de gestion des supercalculateurs NVIDIA, et deviendra le planificateur par défaut pour les infrastructures DGX SuperPOD. Les futures versions de Slurm devraient inclure un support optimisé pour les interconnexions NVLink et la technologie MIG (Multi-Instance GPU) de NVIDIA, permettant un partitionnement fin des ressources pour le multi-tenancy. La clôture de l’acquisition, prévue au premier trimestre 2025, reste soumise à l’examen des régulateurs, notamment la FTC américaine, vigilante sur la position dominante de NVIDIA qui équipe déjà environ 40% des systèmes du TOP500.
Conséquences stratégiques : un verrouillage du marché et une pression accrue
Cette acquisition consolide l’hégémonie de NVIDIA sur trois niveaux. Au niveau matériel, ses GPU sont déjà dominants. Au niveau logiciel, elle contrôle désormais le standard qui décide de l’utilisation de ces GPU. Au niveau écosystème, elle propose désormais une pile complète et optimisée « de bout en bout », du silicium au réseau en passant par l’orchestration et la planification des tâches. Pour un client, remplacer les GPU NVIDIA devient un défi bien plus complexe, impliquant une reconfiguration profonde de la couche logicielle Slurm.
Cette manœuvre met immédiatement sous pression les concurrents. AMD, avec ses GPU MI300X et son écosystème ROCm, ou Intel avec Gaudi3, proposent des alternatives matérielles. Cependant, leurs solutions logicielles de planification (UGER pour AMD, PBS Pro pour Intel) sont bien moins adoptées que Slurm. Le risque pour eux est de voir émerger une version de Slurm « optimisée pour NVIDIA » qui fonctionnerait de manière sous-optimale sur leur matériel, créant une barrière à l’entrée supplémentaire. Les startups du cloud GPU, comme CoreWeave ou Lambda Labs, qui s’appuient également sur Slurm, devront composer avec les futures orientations stratégiques de NVIDIA.
Une étape décisive vers la domination du calcul de nouvelle génération
NVIDIA n’a pas simplement acquis une PME de 50 personnes ; elle a pris le contrôle du standard logiciel qui fait tourner l’infrastructure de calcul scientifique et industriel mondiale. Les scénarios futurs se dessinent. Dans un scénario optimiste, Slurm, intégré et optimisé, accélère l’innovation et consolide la position de NVIDIA. Un scénario réaliste verrait Slurm rester open-source mais avec une « version NVIDIA » privilégiée, conduisant à une fragmentation modérée de l’écosystème. Enfin, un scénario plus pessimiste pourrait voir les régulateurs imposer des conditions pour préserver la neutralité du logiciel.
Cette concentration du pouvoir entre les mains d’un seul acteur pose la question de la santé de l’innovation ouverte dans le HPC et l’IA. Elle intervient sur un marché du HPC global estimé à 45 milliards de dollars en 2024 et projeté à 65 milliards d’ici 2028. En prenant le contrôle de Slurm, NVIDIA se positionne non seulement pour capturer une part massive de cette croissance, mais surtout pour définir les règles de la prochaine ère de calcul : celle où la simulation scientifique et l’intelligence artificielle convergeront sur les mêmes machines, orchestrées par un logiciel qu’elle contrôle désormais intégralement. La course pour la suprématie dans le calcul haute performance vient de franchir un cap dont aucun acteur ne pourra faire l’économie.