Solution de pointe pour la nouvelle ère du calcul.
GGB200 NVL72 permet de connecter 36 CPU Grace et 72 GPU Blackwell via un modèle rackable à refroidissement liquide. Cette solution assure la mise en œuvre d'un domaine NVLink à 72 GPU agissant comme un GPU unique à même de fournir des capacités d'inférence en temps réel 30 fois plus rapide avec les grands modèles de langage (LLM) dotés de plusieurs billions de paramètres.
Le processeur GB200 Grace Blackwell Superchip est un composant-clé de NVIDIA GB200 NVL72, qui permet de connecter deux GPU NVIDIA Blackwell Tensor Core hautes performances et un CPU NVIDIA Grace™ aux deux GPU Blackwell à l'aide de l'interconnexion NVIDIA NVLink™-C2C.
Points-clés
Inférence LLM et efficacité énergétique - Latence jeton-à-jeton (TTL) = 50 ms en temps réel ; Latence du premier jeton (FTL) = 5 s ; Longueur de séquence = 32 768 en entrée / 1024 en sortie. NVIDIA HGX™ H100 mis à l'échelle via InfiniBand (IB) vs GB200 NVL72. Entraînement 1.8T MOE 4096x avec HGX H100 mis à l'échelle via IB vs 456x avec GB200 NVL72 mis à l'échelle via IB. Taille de cluster : 32 768
Charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy / Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique avec GB200 NLV72 vs un CPU Intel Xeon 8480+
Mesures de performance susceptibles d’être modifiées.
Caractéristiques
Le NVIDIA GB300 NVL72 offre des performances d'inférence de l'IA 40 fois plus élevées que les plateformes Hopper, 40 To de mémoire rapide et l'intégration des plateformes de mise en réseau avec les NVIDIA ConnectX®-8 SuperNIC à l'aide de Quantum-X800 InfiniBand ou Spectrum™-X Ethernet. Blackwell Ultra offre des performances révolutionnaires sur les charges de travail les plus complexes, des systèmes agentiques et du raisonnement à la génération vidéo en temps réel 30 fois plus rapide.
Spécifications
GB200 NVL72 | GB200 Grace Blackwell Superchip | |
Configuration | 36 CPU Grace CPU et 72 GPU Blackwell | 1 CPU Grace et 2 GPU Blackwell |
FP4 Tensor Core1 | 1440 PFlops | 40 PFlops |
FP8/FP6 Tensor Core1 | 720 PFlops | 20 PFlops |
INT8 Tensor Core1 | 720 Pops | 20 Pops |
FP16/BF16 Tensor Core1 | 360 PFlops | 10 PFlops |
TF32 Tensor Core1 | 180 PFlops | 5 PFlops |
FP32 | 5760 TFLOPS | 160 TFLOPS |
FP64 | 2880 TFLOPS | 80 TFLOPS |
FP64 Tensor Core | 2880 TFlops | 80 TFlops |
Mémoire GPU | Bande passante | Jusqu’à 13,4 To HBM3e | 576 To/s | Jusqu’à 372 Go HBM3e | 16 To/s |
Bande passante NVLink | 130 To/s | 3,6 To/s |
Nombre de cœurs CPU | 2592 cœurs Arm® Neoverse V2 | 72 cœurs Arm Neoverse V2 |
Mémoire CPU | Bande passante | Jusqu’à 17 To LPDDR5X | Jusqu’à 18,4 To/s | Jusqu'à 480 Go LPDDR5X | Jusqu'à 512 Go/s |
1. Avec dispersion. |