Supercalculateur NVIDIA HGX pour l’IA

Découvrez la plateforme la plus performante au monde pour le calcul intensif basé sur l'IA.

Plateforme spécifiquement conçue pour l’IA et le HPC

Pour traiter des jeux de données massifs, des modèles d’IA avancés et des simulations complexes, les entreprises doivent disposer de GPU multiples, d’un modèle d’interconnexion rapide et d’une pile logicielle entièrement accélérée. La plateforme de calcul intensif NVIDIA HGX™ pour l’IA, qui exploite toute la puissance des GPU de NVIDIA, combine des technologies de pointe comme NVLink®, les solutions de mise en réseau conçues par NVIDIA et des piles logicielles spécialement optimisées pour l’IA et le calcul haute performance (HPC) afin de mettre en œuvre des performances d’application sans précédent et d'offrir des gains de productivité significatifs.

Accélération sans précédent du calcul informatique

Les systèmes NVIDIA HGX B200 et HGX B100 s'appuient sur des GPU NVIDIA Blackwell Tensor Core et sur des fonctionnalités d’interconnexion à haute vitesse pour faire passer les Data Centers dans la nouvelle ère du calcul accéléré et de l’IA générative. Cette puissante plateforme Scale-Up entièrement accélérée est en mesure de fournir des performances d’inférence jusqu’à 15 fois élevées qu'avec les solutions de génération précédente. Les systèmes HGX à architecture Blackwell ont été conçus pour traiter les charges de travail les plus intensives en matière d’IA générative, d’analyse de données et de HPC.

La gamme NVIDIA HGX inclut des options de mise en réseau avancées et propose un débit pouvant atteindre 400 gigabits par seconde (Gbit/s), tout en mettant à profit les technologies NVIDIA Quantum-2 InfiniBand et Spectrum™-X Ethernet pour fournir des performances d’IA sans précédent. HGX embarque également des processeurs de traitement des données (DPU) NVIDIA® BlueField®-3 pour mettre en œuvre une mise en réseau dans le Cloud, un stockage composable, une sécurité Zero-Trust et une grande élasticité de calcul sur GPU pour les Clouds IA Hyperscale.

Performance et évolutivité pour l'inférence basée sur le Deep Learning

Mesures de performance susceptibles d’être modifiées. Latence jeton-à-jeton (TTL) = 50 millisecondes (ms) en temps réel ; Latence du premier jeton (FTL) = 5 s ; Longueur de séquence d’entrée = 32 768 ; Longueur de séquence de sortie = 1028. Configuration de test : 8x GPU NVIDIA HGX™ H100 Eight-Way à refroidissement ​.

Inférence en temps réel pour la nouvelle génération des grands modèles de langage

Par rapport aux produits NVIDIA Hopper™ de génération précédente, le HGX B200 fournit des performances d’inférence jusqu’à 15 fois plus élevées pour le traitement de modèles complexes tels que GPT-MoE-1.8T. Le moteur de transformation de seconde génération fait appel à une version personnalisée de la technologie Blackwell Tensor Core combinée aux innovations de la bibliothèque logicielle TensorRT™-LLM et du framework Nemo™ pour accélérer l'inférence avec les  grands modèles de langage (LLM) et les modèles MoE (Mixture of Experts).  

Performance et évolutivité pour l'entraînement des modèles de Deep Learning

Projections de performance susceptibles d’être modifiées. Échelle d'évolutivité GPU : 32 768. Cluster de 4096 GPU HGX H100 Eight-Way à refroidissement par air : réseau 400G InfiniBand (IB). Cluster de 4096 GPU HGX B200 Eight-Way à refroidissement par air : réseau 400G IB.

Performances d’entraînement exceptionnelles

La seconde génération du moteur de transformation, qui propose une prise en charge avancée des calculs FP8 (virgule flottante à 8 bits) et de nouveaux formats de précision, permet d'accélérer jusqu’à 3 fois l'entraînement des grands modèles de langage (LLM) tels que GPT-MoE-1.8T. Ce gain de performance repose sur la technologie NVLink de cinquième génération, qui permet un débit d’interconnexion GPU-vers-GPU de 1,8 téraoctets par seconde (To/s) avec les solutions de mise en réseau InfiniBand et l'environnement logiciel NVIDIA Magnum IO™ . L’association de ces technologies garantit un excellent niveau d'évolutivité aux entreprises qui exploitent des clusters de calcul GPU à haut degré de complexité.

Solutions de mise en réseau de NVIDIA pour l’accélération de HGX

Alors que les Data Centers constituent la nouvelle référence du calcul informatique, la mise en réseau joue un rôle essentiel dans la mise à l’échelle des performances d’application sur l’ensemble de l’infrastructure. Associée à la technologie NVIDIA Quantum InfiniBand, la plateforme HGX fournit des performances et un rendement énergétique sans précédent, garantissant ainsi une utilisation optimale des ressources de calcul.

Pour les Data Centers IA dans le Cloud reposant sur le protocole Ethernet, il convient d’utiliser HGX conjointement à la plateforme de mise en réseau NVIDIA Spectrum-X, qui fournit des performances d’IA de pointe avec une connexion Ethernet. Équipée des commutateurs NVIDIA Spectrum™-X et de DPU BlueField-3, la plateforme fournit des résultats stables et prévisibles pour des milliers de tâches d’IA en simultané à tous les niveaux, et ce grâce à une utilisation optimale des ressources et à une isolation efficace des performances. Spectrum-X propose en outre des fonctionnalités avancées d’architecture mutualisée dans le Cloud et de sécurité Zero-Trust. En tant que modèle de référence pour la mise en réseau, NVIDIA a conçu Israel-1, un supercalculateur Hyperscale d’IA générative basé sur des serveurs Dell PowerEdge XE9680 et sur une plateforme dotée de huit GPU NVIDIA HGX, de DPU BlueField-3et de commutateurs Spectrum-.

Connexion de HGX avec NVIDIA Networking

  Plateforme NVIDIA Quantum-2 InfiniBand:

Commutateur Quantum-2, adaptateur ConnectX-7, DPU BlueField-3

Plateforme NVIDIA Spectrum-X:

Commutateur Spectrum-4, BlueField-3 SuperNIC

Plateforme Ethernet NVIDIA Spectrum :

Commutateur Spectrum, adaptateur ConnectX, DPU BlueField

Entraînement Deep Learning Meilleures performances Excellentes performances Bonnes performances
Simulation scientifique Meilleures performances Excellentes performances Bonnes performances
Analyse de données Meilleures performances Excellentes performances Bonnes performances
Inférence Deep Learning Meilleures performances Excellentes performances Bonnes performances

NVIDIA HGX - Spécifications

La plateforme NVIDIA HGX est disponible via des cartes de référence pour serveur dotées de quatre ou huit GPU H200 ou GPU H100, ou de huit GPU Blackwell. Cette puissante combinaison de solutions matérielles et logicielles pose les fondations de la plateforme de calcul ultime pour l’IA.

  HGX B200 HGX B100
GPUs HGX B200 8-GPU HGX B100 8-GPU
Configuration 8x NVIDIA B200 SXM 8x NVIDIA B100 SXM
FP4 Tensor Core 144 PFLOPS 112 PFLOPS
FP8/FP6 Tensor Core 72 PFLOPS 56 PFLOPS
INT8 Tensor Core 72 POPS 56 POPS
FP16/BF16 Tensor Core 36 PFLOPS 28 PFLOPS
TF32 Tensor Core 18 PFLOPS 14 PFLOPS
FP32 640 TFLOPS 480 TFLOPS
FP64 320 TFLOPS 240 TFLOPS
FP64 Tensor Core 320 TFLOPS 240 TFLOPS
Mémoire Jusqu'à 1,5 To Jusqu'à 1,5 To
NVIDIA NVLink Cinquième génération Cinquième génération
NVIDIA NVSwitch™ Quatrième génération Quatrième génération
Bande passante GPU vers GPU avec NVSwitch 1,8 To/s 1,8 To/s
Bande passante globale 14,4 To/s 14,4 To/s
  * HGX H200
  4-GPU 8-GPU
GPUs HGX H200 4-GPU HGX H200 8-GPU
Configuration 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
Mémoire Jusqu’à 564 Go Jusqu’à 1,1 To
NVLink Quatrième génération Quatrième génération
NVSwitch N/A Troisième génération
Bande passante GPU vers GPU avec NVSwitch N/A 900 Go/s
Bande passante globale 3,6 To/s 7,2 To/s
  * HGX H100
  4-GPU 8-GPU
GPUs 1x HGX H100 à 4 GPU 1x HGX H100 à 8 GPU
Form factor 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
Mémoire Jusqu’à 320 Go Jusqu’à 640 Go
NVLink Quatrième génération Quatrième génération
NVSwitch N/A Troisième génération
Commutateur NVLink N/A N/A
Bande passante GPU vers GPU avec NVSwitch N/A 900 Go/s
Bande passante globale 3,6 To/s 7,2 To/s

En savoir plus sur le GPU NVIDIA H200 Tensor Core.