Plateforme NVIDIA HGX

Accélération de calculs d'IA avancés dans chaque Data Center.

Aperçu
Inférence
Entraînement
Mise en réseau
Spécifications

Aperçu

Aperçu
Inférence
Entraînement
Mise en réseau
Spécifications

Conçu pour l'IA et le calcul hautes performances

L'IA, les simulations complexes et les ensembles de données volumineux nécessitent plusieurs GPU disposant d'interconnexions extrêmement rapides et d'une pile logicielle entièrement accélérée. La plateforme NVIDIA HGX™ réunit toute la puissance des GPU NVIDIA, de NVIDIA NVLink™, de la mise en réseau NVIDIA et des piles logicielles d'IA et du calcul haute performance (HPC) entièrement optimisées pour fournir des performances d'applications optimales et réduire les délais d'obtention d'éclairages dans tous les Data Centers.

Accélération sans précédent du calcul informatique

Le NVIDIA HGX B300 NVL16 intègre des GPU NVIDIA Blackwell Ultra avec des interconnexions haute vitesse pour propulser le Data Center dans une nouvelle ère de calcul accéléré et de l'IA générative. En tant que plateforme évolutive accélérée de premier ordre offrant des performances d'inférence jusqu'à 11 fois supérieures à la génération précédente, les systèmes HGX basés sur Blackwell sont conçus pour les charges de travail d'IA générative, d'analyse de données et de HPC les plus exigeantes.

NVIDIA HGX inclut des options de mise en réseau avancées, à des vitesses allant jusqu'à 800 gigabits par seconde (Gbit/s), à l'aide de NVIDIA Quantum-X800 InfiniBand et de Spectrum™-X Ethernet pour des performances d'IA optimales. HGX inclut également des unités de traitement de données (DPU) NVIDIA BlueField®-3 pour permettre la mise en réseau Cloud, le stockage composable, la sécurité Zero-Trust et l'élasticité de calcul par GPU dans les Clouds d'IA hyperscale.

Inférence du raisonnement de l'IA : performances et polyvalence

Inférences de Deep Learning en temps réel

Projections de performance sujettes à modification. Latence jeton-à-jeton (TTL) = 20 ms en temps réel, latence du premier jeton (FTL) = 5 s, longueur de séquence d'entrée = 32 768, longueur de séquence de sortie = 1 028, 8x GPU HGX H100 à huit voies refroidis par air contre 1x HGX B300 NVL16 refroidi par air, comparaison des performances par GPU ; servi à l'aide d'une inférence désagrégée.

Inférence en temps réel des grands modèles de langage

HGX B300 NVL16 permet d'atteindre des performances d'inférence jusqu'à 11 fois supérieures à la génération NVIDIA Hopper™ précédente pour des modèles tels que le Llama 3.1 405B. Le moteur de transformation de deuxième génération utilise la technologie Blackwell Tensor Core personnalisée combinée aux innovations TensorRT™-LLM pour accélérer l'inférence des grands modèles de langage (LLM).

Entraînement de l'IA : performance et évolutivité

Les performances projetées peuvent changer. Comparatif de performances par GPU réalisé avec un GPU HGX H100 8-Way et un GPU HGX B300 NVL16.

Performances d'entraînement de haut niveau

Le moteur de transformation de seconde génération, qui propose une prise en charge avancée des calculs FP8 (virgule flottante à 8 bits) et de nouveaux niveaux de précision, permet d'accélérer jusqu'à 4 fois les procédures d'entraînement avec de grands modèles de langage comme Llama 3.1 405B. Cette avancée technologique repose sur la combinaison transparente de la technologie NVLink de cinquième génération dotée d'un débit d'interconnexion de 1,8 To/s, de la norme de mise en réseau InfiniBand et du logiciel NVIDIA Magnum IO™. Cette association garantit un excellent niveau d'évolutivité aux entreprises qui exploitent des clusters de calcul GPU à haut degré de complexité.

Solutions de mise en réseau pour l’accélération de NVIDIA HGX

Les Data Centers constituent la nouvelle référence du calcul informatique, et la mise en réseau du HPC joue un rôle essentiel dans la mise à l’échelle des performances d’application sur l’ensemble de l’infrastructure. Associé à NVIDIA Quantum InfiniBand, HGX offre des performances et une efficacité hors pairs, ce qui garantit la pleine utilisation des ressources de calcul.

Pour les Data Centers d'IA Cloud qui déploient Ethernet, HGX est plus efficace avec la plateforme de mise en réseau NVIDIA Spectrum-X™, qui offre des performances d'IA optimales par rapport à Ethernet. Elle intègre des commutateurs Spectrum-X et NVIDIA SuperNIC™ pour une utilisation optimale des ressources et une isolation des performances, afin d'offrir des résultats cohérents et prévisibles pour des milliers de tâches d'IA simultanées, à toutes les échelles. Spectrum-X permet une mutualisation sécurisée et une sécurité Zero-Trust et multi-locataires dans le Cloud. En guise de modèle de référence, NVIDIA a conçu Israel-1, un supercalculateur d'IA générative hyperscale construit avec des serveurs Dell PowerEdge XE9680 et basés sur la plateforme NVIDIA HGX 8-GPU, les SuperNIC BlueField-3 et les commutateurs Spectrum-4.

NVIDIA HGX - Spécifications

NVIDIA HGX est disponible sous forme de cartes de base simples avec quatre ou huit GPU Hopper, huit GPU NVIDIA Blackwell ou seize GPU Blackwell Ultra. Ces puissantes combinaisons de matériel et de logiciels jettent les bases de performances de calcul intensif de l'IA sans précédent.

Blackwell
Hopper

	HGX B300 NVL16	HGX B200
Configuration	16 GPU NVIDIA Blackwell Ultra	8 GPU NVIDIA Blackwell
FP4 Tensor Core**	144 PFLOPS \| 105 PFLOPS	144 PFLOPS \| 72 PFLOPS
Tensor Core FP8/FP6*	72 PFLOPS	72 PFLOPS
INT8 Tensor Core*	2 POPS	72 POPS
FP16/BF16 Tensor Core*	36 PFLOPS	36 PFLOPS
TF32 Tensor Core*	18 PFLOPS	18 PFLOPS
FP32	600 TFLOPS	600 TFLOPS
Cœur Tensor FP64/FP64	10 TFLOPS	296 TFLOPS
Mémoire totale	Jusqu'à 2,3 To	1,4 To
NVLink	Cinquième génération	Cinquième génération
NVIDIA NVSwitch™	Commutateur NVLink 5	Commutateur NVLink 5
Bande passante GPU vers GPU avec NVSwitch	1,8 To/s	1,8 To/s
Bande passante NVLink totale	14,4 To/s	14,4 To/s
Networking Bandwidth	1,6 TB/s	0,8 TB/s
Attention Performance	2X	1X

* Avec dispersion

** Avec dispersion | sans dispersion

Lire la fiche technique de NVIDIA Blackwell

	HGX H200
	4 GPU	8 GPU
Configuration	4 NVIDIA H200 SXM	8 NVIDIA H200 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Mémoire totale	564 Go HBM3	1,1 To HBM3
Bande passante agrégée GPU	19 Go/s	38 Go/s
NVLink	Quatrième génération	Quatrième génération
NVSwitch	N/A	Commutateur NVLink 4
Bande passante GPU vers GPU avec NVSwitch	N/A	900 Go/s
Bande passante globale	3,6 To/s	7,2 To/s
Networking Bandwidth	0,4TB/s	0,8TB/s

	HGX H100
	4 GPU	8 GPU
Configuration	4x NVIDIA H100 SXM	8x NVIDIA H100 SXM
FP8 Tensor Core*	16 PFLOPS	32 PFLOPS
INT8 Tensor Core*	16 POPS	32 POPS
FP16/BF16 Tensor Core*	8 PFLOPS	16 PFLOPS
TF32 Tensor Core*	4 PFLOPS	8 PFLOPS
FP32	270 TFLOPS	540 TFLOPS
FP64	140 TFLOPS	270 TFLOPS
FP64 Tensor Core	270 TFLOPS	540 TFLOPS
Mémoire totale	320 Go HBM3	640 Go HBM3
Bande passante agrégée GPU	13 Go/s	27 Go/s
NVLink	Quatrième génération	Quatrième génération
NVSwitch	N/A	Commutateur NVLink 4
Bande passante GPU vers GPU avec NVSwitch	N/A	900 Go/s
Bande passante globale	3,6 To/s	7,2 To/s
Networking Bandwidth	0,4TB/s	0,8TB/s