NVIDIA GB200 NVL2

NVIDIA GB200 NVL2

Entrez dans la nouvelle ère du calcul informatique sur Data Center.

Des performances sans précédent sur un seul serveur

La plateforme NVIDIA GB200 NVL2, qui ouvre la nouvelle ère du calcul accéléré pour tous les Data Centers, fournit des performances sans précédent pour les processus d'inférence grand public basés sur les grands modèles de langage (LLM), les recherches dans les bases de données vectorielles et le traitement des données grâce à la puissance combinée de deux GPU Blackwell et deux CPU Grace. Son architecture Scale-Out NVIDIA MGX™sur un seul nœud permet de mettre en œuvre une grande variété de systèmes et d’options réseau pour intégrer en toute transparence des capacités avancées de calcul accéléré au sein des infrastructures existantes de Data Center.

L’industrie informatique s’associe à NVIDIA afin de concevoir des Data Centers et des usines d'IA pour la nouvelle révolution industrielle

Lors du salon Computex 2024, NVIDIA et les principaux constructeurs d’ordinateurs au monde ont dévoilé de tout nouveaux systèmes à architecture Blackwell basés sur la plateforme GB200 NVL2 qui vont accélérer l'avènement de la prochaine révolution industrielle.

Points-clés

Capacités de calcul accéléré sans précédent

Inférence avec Llama 3

5X

Recherche dans bases de données vectorielles

9X

Traitement des données

18X

Inférence Llama3 avec LLM : latence jeton-à-jeton (TTL) = 50 millisecondes (ms) en temps réel ; latence du premier jeton (FTL) = 2 s ; longueur de séquence d’entrée = 2048, longueur de séquence de sortie = 128 ; 8x GPU NVIDIA HGX™ H100 à refroidissement par air vs GB200 NVL2 à refroidissement par air sur un seul nœud. Comparaison des performances par GPU.
Performances de recherche dans des bases de données vectorielles avec un pipeline de RAG faisant appel à de la mémoire partagée par un CPU NVIDIA Grace et un GPU Blackwell. 1x CPU x86, 1x GPU H100 et 1x GPU d'un nœud GB200 NVL2.
Traitement des données : charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy/Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique d'un nœud GB200 NVL2 ; GB200 vs Intel Xeon 8480+.
Mesures de performance susceptibles d’être modifiées.

Inférence grand public avec LLM en temps réel

La plateforme GB200 NVL2 met en œuvre une importante mémoire à haut degré de cohérence pouvant atteindre 1,3 téraoctet (To) et qui peut être partagée entre deux CPU Grace et deux GPU Blackwell. Ce modèle de mémoire partagée est couplé à la technologie NVIDIA® NVLink™ de cinquième génération et à des connexions C2C (chip-to-chip) à haute vitesse qui permettent de fournir des performances d’inférence LLM en temps réel jusqu'à 5 fois plus rapides avec les modèles de langage grand public tels que Llama 3 70B.

Recherche dans bases de données vectorielles

La plateforme GB200 NLV2 accélère jusqu’à 9 fois les opérations de recherche vectorielle reposant sur la génération augmentée par récupération (RAG). La base de données vectorielle du jeu de données Wikipedia pèse par exemple plus de 200 gigaoctets (Go), et l’accès aux 960 Go de mémoire dédiée du CPU Grace et aux capacités de liaison C2C à 900 Go/s permet d'accélérer de manière significative les recherches vectorielles à faible latence.

Traitement des données

Les bases de données jouent un rôle essentiel dans la gestion, le traitement et l’analyse d’importants volumes d'informations au sein des entreprises. La plateforme GB200 NVL2 tire parti de la bande passante élevée de l’interface NVLink-C2Cet des moteurs de décompression dédiés de l'architecture NVIDIA Blackwell de manière à accélérer jusqu’à 18 fois le pipeline des requêtes de bases de données par rapport au traitement CPU.

Caractéristiques

Avancées technologiques

Architecture Blackwell

L’architecture NVIDIA Blackwell fournit des innovations cruciales pour le calcul accéléré et va définir la nouvelle ère du calcul informatique avec des performances, une efficacité et une évolutivité sans précédent.

CPU NVIDIA Grace

Le CPU NVIDIA Grace est un processeur révolutionnaire conçu pour les Data Centers modernes qui exécutent des applications d'IA, de Cloud et de calcul haute performance (HPC). Il fournit des performances et une bande passante mémoire exceptionnelles avec une efficacité énergétique deux fois plus élevée que les processeurs de serveur traditionnels.

NVIDIA NVLINK-C2C

NVIDIA NVLink-C2C interconnecte de manière cohérente les CPU Grace et les GPU Blackwell avec un débit de 900 Go/s. GB200 NVL2 exploite le modèle d'interconnexion NVLink-C2C et la technologie NVLink de cinquième génération pour mettre en œuvre un modèle de mémoire à haut degré de cohérence de 1,4 To afin d’accélérer les workflows d'IA de manière significative.

Mise en cache KV

La mise en cache KV (Key Value) à valeur-clé réduit les délais de réponse du LLM en stockant le contexte et l’historique des conversations. La plateforme GB200 NVL2 optimise la mise en cache KV grâce à la mémoire cohérente des CPU Grace et des GPU Blackwell connectés par NVLink-C2C (une technologie jusqu’à 7 fois plus rapide que la norme PCIe), ce qui permet aux LLM de prévoir les mots plus rapidement que les implémentations GPU basées sur la gamme de processeurs x86.

NVIDIA NVLink de 5e génération

Pour exploiter le plein potentiel du calcul Exascale et de nouveaux modèles d’IA pouvant inclure plusieurs billions de paramètres, il convient de mettre en œuvre des communications fluides et rapides entre chaque GPU au sein d’un cluster de serveurs. La technologie NVLink de cinquième génération repose sur un modèle d’interconnexion évolutif qui contribue à accélérer les performances des modèles d’IA incluant des billions de paramètres (voire beaucoup plus).

NVIDIA Networking

Les réseaux de Data Centers jouent un rôle essentiel dans l’innovation et les performances des applications d’IA. Chaque réseau tient lieu de pilier pour l’entraînement des modèles d’IA distribuée et pour la mise en œuvre d'une IA générative à hautes performances. Les solutions de mise en réseau NVIDIA Quantum-X800 InfiniBand et NVIDIA Spectrum™-X800 Ethernetainsi que les DPU NVIDIA BlueField®-3 assurent une évolutivité efficace sur des centaines et des milliers de GPU Blackwell, fournissant ainsi des performances d’application optimales.

Spécifications

GB200 NVL2¹ - Spécifications

Configuration 2x CPU Grace, 2x GPU Blackwell
FP4 Tensor Core² 40 PFlops
FP8/FP6 Tensor Core² 20 PFlops
INT8 Tensor Core² 20 Pops
FP16/BF16 Tensor Core² 10 PFlops
TF32 Tensor Core² 5 PFlops
FP32 180 TFlops
FP64 Tensor Core 90 TFlops
Mémoire GPU | Bande passante Jusqu'à 384 Go | 16 To/s
Nombre de cœurs CPU 144 cœurs Arm® Neoverse V2
Mémoire LPDDR5X | Bande passante Jusqu’à 960 Go | Jusqu’à 1024 Go/s
Interconnexion NVLink : 1,8 To/s
NVLink-C2C : 2x 900 Go/s
PCIe Gen6 : 2x 256 Go/s
Options de serveur Différentes options de configuration NVIDIA GB200 NVL2 avec NVIDIA MGX
NVIDIA Grace Blackwell NVL72

NVIDIA GB200 NVL72

Le domaine NVIDIA GB200 NVL72 permet de connecter 36 puces GB200 Superchip au sein d'une configuration rackable. Ce système unique en son genre constitue une solution rackable évolutive à refroidissement liquide qui assure la mise en œuvre d'un domaine NVLink à 72 GPU agissant comme un puissant GPU unique.

Démarrage

Ne manquez aucune information

Inscrivez-vous pour savoir quand NVIDIA Blackwell sera disponible.