NVIDIA Vera Rubin NVL72 à baie unique

NVIDIA Vera Rubin NVL72

Bâtir la nouvelle frontière de l'IA agentique.

Aperçu

Sept nouvelles puces, un supercalculateur d'IA

NVIDIA Vera Rubin NVL72 unifie les technologies de pointe de NVIDIA, notamment 72 GPU Rubin, 36 CPU Vera, des SuperNIC NVIDIA ConnectX™-9 et des DPU BlueField™-4. Il augmente l'intelligence dans une plateforme à l'échelle du rack, grâce au commutateur NVIDIA NVLink™ 6 et évolue avec NVIDIA Quantum-X800 InfiniBand et Spectrum-X™ Ethernet pour alimenter la révolution industrielle de l'IA à grande échelle. Lorsqu'il est déployé avec des racks NVIDIA Groq 3 LPX, Vera Rubin NVL72 fournit un nouveau niveau de performances d'inférence pour les modèles comportant des trillions de paramètres et un contexte d'un million de jetons.

Vera Rubin NVL72 repose sur la conception de rack NVIDIA MGX™ NVL72 de troisième génération, ce qui permet une transition en douceur avec les générations précédentes. Il fournit un entraînement d'IA avec un quart des GPU et une inférence d'IA pour un dixième du coût par million de jetons par rapport à NVIDIA Blackwell. Grâce à des conceptions de plateaux modulaires sans câble et à une prise en charge de plus de 80 partenaires de l'écosystème MGX, le supercalculateur d'IA à l'échelle de la baie offre des performances de classe mondiale avec un déploiement rapide.

NVIDIA Vera Rubin passe à la pleine production pour alimenter les usines d’IA agentique du monde entier

Le NVIDIA Vera Rubin passe à la pleine production, avec les principaux fabricants de serveurs de Taïwan et les leaders mondiaux de la chaîne logistique qui fabriquent et expédient à grande échelle des systèmes basés sur Vera Rubin, alimentant ainsi les laboratoires d’IA, les fournisseurs de Cloud et les hyperscalers qui se préparent à construire l’intelligence de demain.

NVIDIA Vera Rubin repousse les frontières de l'IA agentique

La plateforme Vera Rubin offre sept nouvelles puces désormais en pleine production pour faire évoluer les usines d'IA les plus importantes au monde.

Performances

Gains d'efficacité massifs en matière d'inférence et d'entraînement de l'IA

Performances d'inférence LLM sujettes à modification. Coût par million de jetons basé sur un modèle Kimi-K2-Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.

Réduire les coûts d'inférence

NVIDIA Vera Rubin NVL72 délivre un dixième du coût par million de jetons par rapport à NVIDIA GB200 NVL72 pour une IA agentique hautement interactive et dotée d'un raisonnement approfondi.

Maximiser le rendement des usines d'IA

NVIDIA Vera Rubin NVL72 fournit jusqu'à 10 fois plus de jetons par mégawatt que NVIDIA GB200 NVL72, permettant une intelligence évolutive tout en conservant la même empreinte énergétique.

Performances d'inférence LLM sujettes à modification. Jetons par seconde par mégawatt basés sur le modèle Kimi-K2 Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.

Projections de performance sujettes à modification. Nombre de GPU basés sur un modèle MoE 10T entraîné sur 100 T de jetons sur une période fixe d'un mois, en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.

Augmenter l'efficacité de la formation

NVIDIA Vera Rubin NVL72 entraîne des modèles MoE (Mixture-of-Experts) avec un quart du nombre de GPU par rapport à NVIDIA GB200 NVL72.

Débit 35 fois plus élevé pour les modèles comptant des billions de paramètres

Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin NVL72 fournit un débit par mégawatt jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.

Projections de performance sujettes à modification. Niveau gratuit (0 $) : modèle Qwen-3 à 235 milliards de paramètres avec 32 000 jetons à valeur clé (KV) mis en cache. Niveau moyen (3 $) : modèle Kimi K2.5 à un billion de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveau élevé (6 $) : modèle GPT-MoE à 2 billions de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveaux Premium (45 $) et Ultra (150 $) : modèle GPT-MoE à 2 billions de paramètres avec 400 000 jetons à valeur clé (KV) mis en cache.

Alimenter l'ère des agents d'IA

La plateforme Vera Rubin

La plateforme Vera Rubin ouvre la nouvelle frontière de l'IA agentique avec cinq racks permettant de faire évoluer les usines d'IA du monde entier : NVIDIA Vera Rubin NVL72, le CPU NVIDIA Vera, NVIDIA Groq 3 LPX, NVIDIA Vera BlueField-4 STX et NVIDIA Spectrum-6 SPX Ethernet. Conçues pour fonctionner ensemble comme un supercalculateur d'IA unique, ces racks alimentent toutes les phases de l'IA, du pré-entraînement à grande échelle, du post-entraînement et de la mise à l'échelle en phase de test jusqu'à l'inférence agentique en temps réel.

GPU NVIDIA Rubin

Les GPU Rubin avec HBM4 et 50 PF NVFP4 Transformer Engine sont conçus pour la nouvelle génération de l'IA.

CPU NVIDIA Vera

Les CPU Vera sont spécialement conçus pour les mouvements de données et le raisonnement agentique, offrant ainsi une bande passante élevée et une efficacité énergétique avec des performances déterministes.

Commutateur NVIDIA NVLink 6

Les commutateurs NVLink 6 offrent une bande passante tout-à-tous de 3,6 téraoctets par seconde (To/s) par GPU, permettant ainsi des communications GPU à GPU à haute vitesse pour l'IA.

NVIDIA ConnectX-9 SuperNIC

Les SuperNICs ConnectX‑9 offrent une bande passante de 1,6 térabit par seconde (Tbit/s) par GPU avec une technologie programmable d'accès direct à la mémoire (RDMA) pour une mise en réseau GPU directe à faible latence et à grande échelle.

DPU NVIDIA BlueField-4

Les DPU BlueField-4 accélèrent le traitement des données pour le stockage, la mise en réseau, la cybersécurité et la mise à l'échelle élastique dans les usines d'IA.

Optique co-intégrée NVIDIA Spectrum-X Ethernet

Les commutateurs extensibles Spectrum-X Ethernet avec photonique de silicium intégrée offrent une efficacité énergétique 5 fois supérieure, une résilience réseau 10 fois plus élevée et une disponibilité jusqu'à 5 fois plus élevée que la mise en réseau traditionnelle avec des émetteurs-récepteurs enfichables.

LPU NVIDIA Groq 3

C'est notre accélérateur d'inférence pour NVIDIA Vera Rubin NVL72, conçu pour répondre aux exigences de faible latence et de grand contexte des systèmes agentiques. Le rack NVIDIA Groq 3 LPX intègre 256 LPU avec 128 Go de SRAM, une bande passante mémoire de 40 PB/s et une bande passante évolutive de 640 To/s par rack. Il est co-conçu avec Vera Rubin NVL72 pour fournir des performances d'inférence par watt 35 fois supérieures et des opportunités de revenus jusqu'à 10 fois supérieures pour les modèles à mille milliards de paramètres par rapport à Blackwell.

NVIDIA Vera Rubin NVL4

NVIDIA Vera Rubin NVL4 offre des performances révolutionnaires grâce à quatre GPU NVIDIA Rubin interconnectés par un pont NVLink de deuxième génération exécutant NVIDIA NVLink de sixième génération, associés à deux processeurs NVIDIA Vera via NVLink-C2C. Compatible avec les serveurs modulaires NVIDIA MGX à refroidissement liquide, il fournit des performances jusqu'à 4 fois plus élevées pour la simulation de calcul scientifique, 6 fois plus élevées pour l'entraînement à l'IA pour la science et 8 fois plus élevées pour l'inférence de l'IA pour la science par rapport à Grace Hopper.

Spécifications¹

Spécifications de NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72 Superpuce NVIDIA Vera Rubin GPU NVIDIA Rubin
Configuration 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera 2 GPU Rubin | 1 CPU Vera 1 GPU Rubin
Inférence NVFP4 3 600 PFLOPS 100 PFLOPS 50 PFLOPS
Entraînement NVFP4² 2 520 PFLOPS 70 PFLOPS 35 PFLOPS
Entraînement FP8/FP6² 1 260 PFLOPS 35 PFLOPS 17,5 PFlops
Dense INT8² 18 POPS 500 TOPS 250 TOPS
Dense FP16/BF16² 288 PFLOPS 8 PFLOPS 4 PFLOPS
Dense TF32² 144 PFlops 4 PFLOPS 2 PFlops
FP32 9 360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2 400 TFLOPS 67 TFlops 33 TFLOPS
FP32 SGEMM³ 28 800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14 400 TFLOPS 400 TFLOPS 200 TFLOPS
Mémoire GPU | Bande passante 20,7 To HBM4 | 1 580 To/s 576 Go HBM4 | 44 To/s 288 Go HBM4 | 22 To/s
NVIDIA NVLink Sixième génération
Bande passante NVLink 260 To/s
(bande passante du commutateur NVLink 6)
7,2 To/s 3,6 To/s
Bande passante NVLink-C2C 65 To/s 1,8 To/s -
Nombre de cœurs de CPU 3 168 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) 88 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) -
Mémoire CPU 54 To LPDDR5X 1,5 To LPDDR5X -
Bande passante de mise en réseau (évolutivité) 28,8 To/s 0,8 To/s 0,4 To/s
Total des puces NVIDIA + HBM4 1 296 30 12

1. Informations préliminaires, toutes les valeurs sont approximatives et sujettes à modification
2. Spécification Dense
3. Performances maximales avec des algorithmes d'émulation basés sur le Cœur Tensor

Démarrer

Suivez l'actualité de NVIDIA

Inscrivez-vous pour recevoir les dernières actualités et annonces de NVIDIA.