Des performances, une évolutivité et une sécurité extraordinaires pour chaque datacenter.
Le GPU NVIDIA H100 Tensor Core offre des performances, une évolutivité et une sécurité exceptionnelles pour chaque charge de travail. Le H100 utilise des innovations révolutionnaires basées sur l'architecture NVIDIA Hopper™ pour offrir une IA conversationnelle de pointe, multipliant par 30 la vitesse de traitement des grands modèles de langage (LLM). Le H100 comprend également un moteur de transformation dédié au traitement de modèles de langage comportant des milliards de paramètres.
Projections de performance sujettes à modification. Cluster A100 entraînant un modèle GPT-3 de 175 milliards de paramètres : réseau HDR IB, cluster H100 : réseau NDR IB | Variante Mixture of Experts (MoE) Training Transformer Switch-XXL avec 395 milliards de paramètres sur un ensemble de données de 1000 milliards de jetons, cluster A100 : réseau HDR IB, cluster H100 : réseau NDR IB avec système de commutation NVLink à l'endroit indiqué.
Les GPU NVIDIA H100 intègrent des cœurs Tensor de quatrième génération et un moteur de transformation à précision FP8 permettant un entraînement jusqu'à quatre fois plus rapide qu'avec les modèles GPT-3 (175 milliards de paramètres) de génération précédente. La combinaison de la technologie NVLink de quatrième génération (offrant une interconnexion GPU-vers-GPU de 900 Go/s), d'un réseau NDR Quantum-2 InfiniBand (qui accélère les communications entre chaque GPU sur tous les nœuds), de la norme PCIe Gen5 et du logiciel NVIDIA Magnum IO™, permet d'évoluer de manière efficace, qu'il s'agisse de petits systèmes d'entreprise ou d'énormes clusters de GPU unifiés.
Le déploiement de GPU H100 à l'échelle d'un datacenter offre des performances de calcul exceptionnelles et permet à tous les chercheurs d'accéder au calcul HPC Exascale et à des modèles d'IA comportant des milliers de milliards de paramètres.
L'IA permet de relever une multitude de défis commerciaux en utilisant une grande variété de réseaux neuronaux. Un bon accélérateur d’inférences d'IA doit non seulement offrir les meilleures performances, mais doit aussi être suffisamment polyvalent pour accélérer ces réseaux neuronaux.
Le GPU H100 renforce le leadership de NVIDIA sur le marché de l'inférence grâce à plusieurs avancées qui accélèrent jusqu'à 30 fois les workflows d'inférence tout en réduisant la latence. Les cœurs Tensor de quatrième génération accélèrent tous les formats de précisions, y compris le FP64, le TF32, le FP32, le FP16, l'INT8 et désormais le FP8, pour réduire l'utilisation de la mémoire et augmenter les performances tout en conservant la précision des LLM.
Inférences du chatbot Megatron (530 milliards de paramètres)
Projections de performance sujettes à modification. Inférence sur un chatbot Megatron basé sur un modèle comportant 530 milliards de paramètres pour une longueur de séquence d'entrée de 128, une longueur de séquence de sortie de 20 | Cluster A100 : réseau HDR IB | Cluster H100 : système de commutation NVLink, NDR IB
Projections de performance sujettes à modification. Débit 3D FFT (4K^3) | Cluster A100 : réseau HDR IB | Cluster H100 : système de commutation NVLink, NDR IB | Séquençage génomique (Smith-Waterman) | 1x A100 | 1x H100
La plateforme de datacenter NVIDIA offre des gains de performance constants qui s'étendent bien au-delà de la loi de Moore. Et les nouvelles capacités d'IA révolutionnaires du GPU H100 amplifient la puissance du HPC associé à l'IA pour accélérer les découvertes des scientifiques et des chercheurs qui s'efforcent de résoudre les problèmes les plus importants au monde.
Le GPU H100 triple le nombre d’opérations en virgule flottante par seconde (FLOPs) avec les cœurs Tensor à double précision, fournissant ainsi aux applications HPC 60 TFlops de calcul FP64. Les applications HPC avec IA intégrée peuvent également exploiter le niveau de précision TF32 du GPU H100 pour atteindre un pétaflop de débit dans les opérations de multiplication matricielle à simple précision, sans le moindre changement de code.
Le GPU H100 intègre en outre de nouvelles instructions DPX qui offrent des performances 7 fois plus élevées qu'avec des GPU A100 et 40 fois plus élevées qu'avec des CPU sur les algorithmes de programmation dynamique tels que Smith-Waterman pour l'alignement des séquences d'ADN et l'alignement des protéines dans la prédiction des structures protéiques.
Comparaison des instructions DPX sur une plateforme NVIDIA HGX™ de 4 GPU H100 et sur une plateforme IceLake 32 cœurs à double socket.
L'analyse de données peut prendre beaucoup de temps lors du développement de nouvelles applications d'IA. Les solutions Scale-Out des serveurs génériques utilisant uniquement des CPU sont ralenties par un manque de performance en matière d'évolutivité dans la mesure où les grands ensembles de données sont dispersés sur plusieurs serveurs.
Les serveurs accélérés par les GPU H100 fournissent une puissance de calcul exceptionnelle ainsi qu'une bande passante mémoire de 3 To/s par GPU, de même qu'une évolutivité incomparable grâce aux technologies NVLink et NVSwitch. Vous pouvez ainsi traiter les tâches d’analyse de données avec des performances et une évolutivité qui prennent en charge des ensembles de données extrêmement volumineux. Associée à la technologie NVIDIA Quantum-2 InfiniBand, au logiciel Magnum IO, à la solution Spark 3.0 accélérée par GPU et aux bibliothèques d'IA NVIDIA RAPIDS™, la plateforme de datacenter NVIDIA possède la capacité unique d'accélérer ces énormes workflows avec des performances et une efficacité optimales.
Les responsables informatiques cherchent à optimiser l'utilisation (de pointe et moyenne) des ressources de calcul du datacenter. Pour ce faire, ils ont le plus souvent recours à une technique de reconfiguration dynamique pour adapter les ressources de calcul aux charges de travail en cours.
Le GPU H100 avec MIG permet aux responsables informatiques de standardiser leur infrastructure accélérée par GPU tout en disposant de suffisamment de flexibilité pour affecter les ressources GPU avec une précision accrue, de manière à offrir aux développeurs des capacités de calcul adéquates et à optimiser l'utilisation de toutes leurs ressources GPU.
Les solutions d'informatique confidentielle traditionnelles s'appuient sur des CPU, dont la puissance est trop limitée pour les charges de travail à forte intensité de calcul comme l'IA à grande échelle. NVIDIA Confidential Computing est une fonctionnalité de sécurité intégrée de l’architecture NVIDIA Hopper qui a fait du GPU H100 le tout premier accélérateur au monde doté de cette capacité. NVIDIA Blackwell vous offre la possibilité d’accroître les performances de manière exponentielle tout en protégeant la confidentialité et l’intégrité des données et des applications utilisées et a la capacité d'offrir des éclairages à partir des données comme jamais auparavant. Les clients peuvent désormais utiliser un environnement d'exécution de confiance (TEE) basé sur le matériel qui sécurise et isole l'ensemble de la charge de travail de la manière la plus performante possible.
Le GPU Hopper Tensor Core va équiper l’architecture NVIDIA Grace Hopper CPU+GPU, spécifiquement conçue pour accélérer les calculs mobilisant plusieurs téraoctets de données et fournissant également des performances 10 fois plus élevées sur les grands modèles d’IA et le HPC. Le CPU NVIDIA Grace tire parti de la flexibilité de l’architecture Arm® pour proposer une architecture de processeur et de serveur conçue dès le début pour accélérer le calcul informatique. Le GPU Hopper est associé au CPU Grace à l'aide de la technologie d’interconnexion chip-to-chip de NVIDIA qui fournit une bande passante totale de 900 Go/s, sept fois plus rapide que la norme PCIe Gen5. Cette conception novatrice fournit au GPU une bande passante globale jusqu’à 30 fois plus élevée par rapport aux serveurs les plus rapides de l’industrie ainsi que des performances de calcul jusqu’à 10 fois supérieures dans les applications faisant appel à plusieurs téraoctets de données.
Pour les LLM comportant jusqu'à 70 milliards de paramètres (Llama 2 70B), la NVL NVIDIA H100 basée sur PCIe avec pont NVLink utilise un moteur de transformation, NVLink et 188 Go de mémoire HBM3 pour offrir des performances et une évolutivité optimales dans n'importe quel datacenter, apportant ainsi les LLM au grand public. Les serveurs équipés de GPU H100 NVL multiplient par cinq les performances des systèmes Llama 2 70B par rapport aux systèmes NVIDIA A100, tout en conservant une faible latence dans les environnements de datacenter à consommation limitée.
Le GPU NVIDIA H100 NVL est offert avec un abonnement NVIDIA AI Enterprise de cinq ans et simplifie la création de votre plate-forme d'entreprise prête pour l'IA. Le GPU H100 accélère le développement et le déploiement de l'IA dans les solutions d'IA générative prêtes à la production, notamment la vision par ordinateur, l'lA vocale, la génération augmentée par récupération (RAG), et plus encore. NVIDIA AI Enterprise inclut NVIDIA NIM TM , un ensemble de microservices faciles à utiliser conçus pour accélérer le déploiement de l'IA générative en entreprise. Ensemble, les déploiements offrent une sécurité, une facilité de gestion, une stabilité et une assistance de niveau d'entreprise. Cela permet d'obtenir des solutions d’IA optimisées pour les performances qui offrent plus rapidement de la valeur opérationnelle et des informations exploitables.
H100 SXM | H100 NVL | |
---|---|---|
FP64 | 34 TFlops | 30 TFlops |
FP64 Tensor Core | 67 TFlops | 60 TFlops |
FP32 | 67 TFlops | 60 TFlops |
TF32 Tensor Core* | 989 TFlops | 835 TFlops |
BFLOAT16 Tensor Core* | 1979 TFlops | 1671 TFlops |
FP16 Tensor Core* | 1979 TFlops | 1671 TFlops |
FP8 Tensor Core* | 3958 TFlops | 3341 TFlops |
INT8 Tensor Core* | 3958 TOPS | 3341 TOPS |
Mémoire GPU | 80 Go | 94 Go |
Bande passante GPU | 3,35 To/s | 3,9 To/s |
Décodeurs | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
Enveloppe thermique (TDP) | Jusqu’à 700 W (configurable) | De 350 à 400 W (configurable) |
GPU multi-instances | Jusqu’à 7 instances MIG à 10 Go chacune | Jusqu’à 7 instances MIG à 12 Go chacune |
Configuration | SXM | PCIe dual-slot à refroidissement par air |
Interconnexion | NVIDIA NVLink™ : 900 Go/s PCIe Gen5 : 128 Go/s |
NVIDIA NVLink : 600 Go/s PCIe Gen5 : 128 Go/s |
Options de serveur | Systèmes partenaires NVIDIA HGX™ H100, systèmes NVIDIA certifiés™ avec 4 ou 8 GPU et NVIDIA DGX™ H100 avec 8 GPU |
Systèmes partenaires et systèmes NVIDIA certifiés™ avec de 1 à 8 GPU |
NVIDIA AI Enterprise | Extension | Inclus |
Plongez au cœur de l’architecture NVIDIA Hopper.