Bâtir la nouvelle frontière de l'IA agentique.
Aperçu
NVIDIA Vera Rubin NVL72 unifie les technologies de pointe de NVIDIA, notamment 72 GPU Rubin, 36 CPU Vera, des SuperNIC NVIDIA ConnectX™-9 et des DPU BlueField™-4. Il augmente l'intelligence dans une plateforme à l'échelle du rack, grâce au commutateur NVIDIA NVLink™ 6 et évolue avec NVIDIA Quantum-X800 InfiniBand et Spectrum-X™ Ethernet pour alimenter la révolution industrielle de l'IA à grande échelle. Lorsqu'il est déployé avec des racks NVIDIA Groq 3 LPX, Vera Rubin NVL72 fournit un nouveau niveau de performances d'inférence pour les modèles comportant des trillions de paramètres et un contexte d'un million de jetons.
Vera Rubin NVL72 repose sur la conception de rack NVIDIA MGX™ NVL72 de troisième génération, ce qui permet une transition en douceur avec les générations précédentes. Il fournit un entraînement d'IA avec un quart des GPU et une inférence d'IA pour un dixième du coût par million de jetons par rapport à NVIDIA Blackwell. Grâce à des conceptions de plateaux modulaires sans câble et à une prise en charge de plus de 80 partenaires de l'écosystème MGX, le supercalculateur d'IA à l'échelle de la baie offre des performances de classe mondiale avec un déploiement rapide.
Performances
Performances d'inférence LLM sujettes à modification. Coût par million de jetons basé sur un modèle Kimi-K2-Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 délivre un dixième du coût par million de jetons par rapport à NVIDIA GB200 NVL72 pour une IA agentique hautement interactive et dotée d'un raisonnement approfondi.
NVIDIA Vera Rubin NVL72 fournit jusqu'à 10 fois plus de jetons par mégawatt que NVIDIA GB200 NVL72, permettant une intelligence évolutive tout en conservant la même empreinte énergétique.
Performances d'inférence LLM sujettes à modification. Jetons par seconde par mégawatt basés sur le modèle Kimi-K2 Thinking utilisant 32K/8K ISL/OSL en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
Projections de performance sujettes à modification. Nombre de GPU basés sur un modèle MoE 10T entraîné sur 100 T de jetons sur une période fixe d'un mois, en comparant NVIDIA GB200 NVL72 et NVIDIA Vera Rubin NVL72.
NVIDIA Vera Rubin NVL72 entraîne des modèles MoE (Mixture-of-Experts) avec un quart du nombre de GPU par rapport à NVIDIA GB200 NVL72.
Les systèmes agentiques consomment jusqu'à 15 fois plus de jetons que les applications d'IA traditionnelles. Les usines d'IA doivent par conséquent fournir un volume élevé de jetons et d'importantes fenêtres de contexte avec une latence faible et une économie efficace. L'association de LPX et de Vera Rubin NVL72 fournit un débit par mégawatt jusqu'à 35 fois supérieur pour des modèles comportant des billions de paramètres.
Projections de performance sujettes à modification. Niveau gratuit (0 $) : modèle Qwen-3 à 235 milliards de paramètres avec 32 000 jetons à valeur clé (KV) mis en cache. Niveau moyen (3 $) : modèle Kimi K2.5 à un billion de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveau élevé (6 $) : modèle GPT-MoE à 2 billions de paramètres avec 128 000 jetons à valeur clé (KV) mis en cache. Niveaux Premium (45 $) et Ultra (150 $) : modèle GPT-MoE à 2 billions de paramètres avec 400 000 jetons à valeur clé (KV) mis en cache.
Alimenter l'ère des agents d'IA
La plateforme Vera Rubin ouvre la nouvelle frontière de l'IA agentique avec cinq racks permettant de faire évoluer les usines d'IA du monde entier : NVIDIA Vera Rubin NVL72, le CPU NVIDIA Vera, NVIDIA Groq 3 LPX, NVIDIA Vera BlueField-4 STX et NVIDIA Spectrum-6 SPX Ethernet. Conçues pour fonctionner ensemble comme un supercalculateur d'IA unique, ces racks alimentent toutes les phases de l'IA, du pré-entraînement à grande échelle, du post-entraînement et de la mise à l'échelle en phase de test jusqu'à l'inférence agentique en temps réel.
NVIDIA Vera Rubin NVL4 offre des performances révolutionnaires grâce à quatre GPU NVIDIA Rubin interconnectés par un pont NVLink de deuxième génération exécutant NVIDIA NVLink de sixième génération, associés à deux processeurs NVIDIA Vera via NVLink-C2C. Compatible avec les serveurs modulaires NVIDIA MGX à refroidissement liquide, il fournit des performances jusqu'à 4 fois plus élevées pour la simulation de calcul scientifique, 6 fois plus élevées pour l'entraînement à l'IA pour la science et 8 fois plus élevées pour l'inférence de l'IA pour la science par rapport à Grace Hopper.
Spécifications¹
| NVIDIA Vera Rubin NVL72 | Superpuce NVIDIA Vera Rubin | GPU NVIDIA Rubin | |
|---|---|---|---|
| Configuration | 72 GPU NVIDIA Rubin | 36 CPU NVIDIA Vera | 2 GPU Rubin | 1 CPU Vera | 1 GPU Rubin |
| Inférence NVFP4 | 3 600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| Entraînement NVFP4² | 2 520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| Entraînement FP8/FP6² | 1 260 PFLOPS | 35 PFLOPS | 17,5 PFlops |
| Dense INT8² | 18 POPS | 500 TOPS | 250 TOPS |
| Dense FP16/BF16² | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| Dense TF32² | 144 PFlops | 4 PFLOPS | 2 PFlops |
| FP32 | 9 360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2 400 TFLOPS | 67 TFlops | 33 TFLOPS |
| FP32 SGEMM³ | 28 800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14 400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| Mémoire GPU | Bande passante | 20,7 To HBM4 | 1 580 To/s | 576 Go HBM4 | 44 To/s | 288 Go HBM4 | 22 To/s |
| NVIDIA NVLink | Sixième génération | ||
| Bande passante NVLink | 260 To/s (bande passante du commutateur NVLink 6) |
7,2 To/s | 3,6 To/s |
| Bande passante NVLink-C2C | 65 To/s | 1,8 To/s | - |
| Nombre de cœurs de CPU | 3 168 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) | 88 cœurs NVIDIA Olympus personnalisés (compatibles avec Arm®) | - |
| Mémoire CPU | 54 To LPDDR5X | 1,5 To LPDDR5X | - |
| Bande passante de mise en réseau (évolutivité) | 28,8 To/s | 0,8 To/s | 0,4 To/s |
| Total des puces NVIDIA + HBM4 | 1 296 | 30 | 12 |
1. Informations préliminaires, toutes les valeurs sont approximatives et sujettes à modification
2. Spécification Dense
3. Performances maximales avec des algorithmes d'émulation basés sur le Cœur Tensor
Démarrer
Inscrivez-vous pour recevoir les dernières actualités et annonces de NVIDIA.