NVIDIA H100 Tensor コア GPU

あらゆるデータセンターに卓越したパフォーマンス、拡張性、セキュリティを提供します。

はじめに
ワークロード
H100 NVL
NVIDIA AI Enterprise
仕様

はじめに

はじめに
ワークロード
H100 NVL
NVIDIA AI Enterprise
仕様

アクセラレーテッドコンピューティングの大きな飛躍

NVIDIA H100 Tensor コア GPU は、比類なきパフォーマンス、拡張性、セキュリティをあらゆるワークロードに提供します。H100 は、NVIDIA Hopper™ アーキテクチャをベースにした画期的な革新技術を利用して、業界最高水準の対話型 AI を提供し、大規模言語モデル (LLM) を 30 倍高速化します。H100 には、兆単位のパラメーターをもつ言語モデルに対応する専用の Transformer Engine も含まれています。

NVIDIA H100 データシートを読む

NVIDIA H100 NVL 製品概要

エンタープライズからエクサスケールまで、ワークロードをセキュアに高速化

GPT-3 上の AI トレーニングを最大 4 倍高速化

予想性能は変更される可能性があります。GPT-3 175B トレーニング A100 クラスター: HDR IB ネットワーク、H100 クラスター: NDR IB ネットワーク | Mixture of Experts (MoE) Training Transformer Switch-XXL バリアントと 1T トークンデータセット上の 395B パラメーター、A100 クラスター: HDR IB ネットワーク、H100 クラスター: 記載されている場合は NVLink® Switch System を備えた NDR IB ネットワーク。

変革的な AI トレーニング

H100 は第 4 世代の Tensor コアと FP8 精度をサポートする Transformer Engine を備えており、GPT-3 (175B) モデル用の前世代と比較して最大 4 倍高速化されたトレーニングを実現します。GPU 間を毎秒 900 ギガバイトで相互接続する第 4 世代 NVLink、ノード間のGPU ごとに通信を高速化する NDR Quantum-2 InfiniBand ネットワーキング、PCIe Gen5、NVIDIA Magnum IO™ ソフトウェアの組み合わせにより、小規模なエンタープライズシステムから大規模な統合 GPU クラスターまで効率的な拡張性を提供します。

データセンター規模で H100 GPU を導入することで卓越したパフォーマンスが実現され、次世代のエクサスケールハイパフォーマンスコンピューティング (HPC) と1兆パラメーター AI があらゆる研究者の手が届くものとなります。

NVIDIA LaunchPad で NVIDIA AI と NVIDIA H100 を体験

リアルタイムのディープラーニング推論

AI は、広範囲のビジネスの課題を、同じくらい広範囲にわたるニューラルネットワークを使用して解決します。優れた AI 推論アクセラレータには、最高のパフォーマンスだけでなく、これら広範囲に及ぶネットワークを高速化する汎用性も求められます。

H100 は、推論を最大 30 倍高速化し、遅延を最小限に抑えるなど、いくつかの機能強化によって、市場をリードする NVIDIA の推論におけるリーダーシップを拡大します。第 4 世代の Tensor コアは、FP64、TF32、FP32、FP16、INT8、そして今回の FP8 に至るまで、すべての精度を高速化し、LLM の精度を維持しながらメモリ消費を削減して性能を向上します。

最大規模のモデルで AI 推論性能を最大 30 倍に

Megatron チャットボット推論 (5300 億パラメーター)

予想パフォーマンスは変更される場合があります。Megatron 530B パラメータモデルをベースとしたチャットボットの入力シーケンス長 = 128、出力シーケンス長 = 20 | A100 クラスター: HDR IB ネットワーク | H100 クラスター: NVLink Switch System、NDR IB

HPC アプリケーションのパフォーマンスが最大 7 倍に

エクサスケールハイパフォーマンスコンピューティング

NVIDIA データセンタープラットフォームはムーアの法則以上に、パフォーマンスを継続的に向上させます。また、H100 の新しい画期的な AI 機能は、HPC+AI のパワーをさらに増大させ、世界の最重要課題の解決に取り組む科学者や研究者が発見に至るまでの時間が高速化されます。

H100 は、倍精度 Tensor コアの毎秒浮動小数点演算 (FLOPS) を 3 倍にし、HPC で 60 TFLOPS の FP64 コンピューティングを実現します。AIと融合した HPC アプリケーションでは、H100 の TF32 精度を活用し、単精度行列乗算演算で 1 PFLOP のスループットを実現します。コードの変更はゼロです。

H100 はまた、新しい DPX 命令を搭載しており、DNA 配列の Smith-Waterman や、たんぱく質構造予測のたんぱく質配列など、動的プログラミングアルゴリズムで A100 と比較して 7 倍のパフォーマンスアップを、CPU と比較して 40 倍のスピードアップを実現します。

HPC アプリケーションにおける最新 GPU 性能のレビュー

DPX 命令比較: NVIDIA HGX™ H100 4-GPU 対デュアルソケット 32 コア IceLake

高速データ分析

データ分析は多くの場合、AI アプリケーションの開発時間の大半を占めます。大規模なデータセットは複数のサーバーに分散されるため、市販の CPU だけのサーバーによるスケールアウトソリューションでは、スケーラブルなコンピューティングパフォーマンスに欠け、立ち往生してしまいます。

H100 を搭載した高速化サーバーなら、GPU ごとに毎秒 3 テラバイト (TB/s) のメモリ帯域幅、NVLink と NVSwitch™ によるスケーラビリティにより、膨大なデータセットに対処する高いパフォーマンスとスケールでデータ分析が可能です。NVIDIA Quantum-2 Infiniband、Magnum IO ソフトウェア、GPU 高速化 Spark 3.0、NVIDIA RAPIDS™ と組み合わせることで、NVIDIA データセンタープラットフォームは、より高レベルのパフォーマンスと効率性で膨大なワークロードを、他にはない方法で高速化できます。

企業で効率的に利用

IT マネージャーはデータセンターにおけるコンピューティングリソース利用率の最大化 (ピーク時と平均値の両方)を求めています。多くの場合、使用中のワークロードに合わせてリソースを適切なサイズに設定するために、コンピューティングの動的な再構成を採用しています。

MIG を搭載した H100 なら、インフラストラクチャ管理者は GPU アクセラレーテッドインフラストラクチャを標準化でき、同時に、GPU リソースを非常に細かくプロビジョニングできます。正しい量のアクセラレーテッドコンピューティングが安全に開発者に提供され、GPU リソースの使用量を最適化します。

MIG の詳細を見る

コンフィデンシャルコンピューティングを内蔵

従来のコンフィデンシャルコンピューティングソリューションは CPU ベースのため、AI など大規模な計算負荷の高いワークロードの処理には限界があります。NVIDIA コンフィデンシャルコンピューティングは NVIDIA Hopper™ アーキテクチャに組まれているセキュリティ機能で、H100 は、これらの機能を備えた世界初のアクセラレータとなりました。NVIDIA Blackwell は、使用中のデータとアプリケーションの機密性と完全性を保護しながら、パフォーマンスを飛躍的に向上させる機会が得られ、これまでにはないデータに関するインサイトを引き出すことができます。顧客は、ハードウェアベースの TEE (信頼できる実行環境) を使用して、最も高いパフォーマンスが得られる方法でワークロード全体を保護し、分離できるようになります。

NVIDIA コンフィデンシャルコンピューティングの詳細を見る

大規模 AI と HPC のための卓越したパフォーマンス

Hopper Tensor コア GPU は、テラバイト規模のアクセラレーテッドコンピューティング向けに開発された NVIDIA Grace Hopper CPU+GPU アーキテクチャを強化し、大規模モデルの AI と HPC において 10 倍のパフォーマンス向上を実現します。NVIDIA Grace CPU は Arm® アーキテクチャの柔軟性を活用するものです。アクセラレーテッドコンピューティング向けにゼロから設計された CPU とサーバーのアーキテクチャを実現します。Hopper GPU は NVIDIA の超高速チップ間相互接続を使用して Grace CPU とペアリングされます。PCIe Gen5 と比較して 7 倍の速さとなる、毎秒 900GB の帯域幅を実現します。この革新的な設計によって、現行の最速サーバーと比較し、GPU への合計システムメモリ帯域幅が最大 30 倍になり、テラバイト単位のデータを処理するアプリケーションのパフォーマンスが最大 10 倍向上します。

NVIDIA Grace の詳細を見る

H100 NVL を使用して大規模言語モデル推論を強化

最大 700 億パラメーターの LLM (Llama 2 70B) の場合、NVLink ブリッジを持つ PCIe ベースの NVIDIA H100 NVL が、Transformer Engine、NVLink、188GB HBM3 メモリを利用して、あらゆるデータセンターで最適なパフォーマンスと簡便な拡張性を提供し、LLM を主流へと導きます。H100 NVL GPU を搭載したサーバーであれば、電力に制限のあるデータセンター環境で低遅延性を維持しながら、Llama 2 70B のパフォーマンスを NVIDIA A100 システムの最大 5 倍にまで向上します。

エンタープライズ対応: AI ソフトウェアが開発と展開を合理化

NVIDIA H100 NVL には、5 年間の NVIDIA AI Enterprise サブスクリプションが付属し、エンタープライズ AI 対応プラットフォームの構築を簡素化します。H100 は、コンピュータビジョン、スピーチ AI、検索拡張生成 (RAG) など、本番環境に対応した生成 AI ソリューションの AI 開発とデプロイを加速します。NVIDIA AI Enterprise には、エンタープライズにおける生成 AI のデプロイを高速化するように設計された使いやすいマイクロサービスのセットである NVIDIA NIM^TM が含まれています。これらを組み合わせることで、エンタープライズグレードのセキュリティ、管理の容易さ、安定性、サポートを実現するデプロイが可能になります。これによりより迅速にビジネス価値と実践的なインサイトをもたらす、パフォーマンスに最適化された AI ソリューションが実現します。

NVIDIA AI Enterprise ライセンスを有効にする

製品仕様

	H100 SXM	H100 NVL
FP64	34 teraFLOPS	30 teraFLOPs
FP64 Tensor コア	67 teraFLOPS	60 teraFLOPs
FP32	67 teraFLOPS	60 teraFLOPs
TF32 Tensor コア^*	989 teraFLOPS	835 teraFLOPs
BFLOAT16 Tensor コア^*	1,979 teraFLOPS	1,671 teraFLOPS
FP16 Tensor コア^*	1,979 teraFLOPS	1,671 teraFLOPS
FP8 Tensor コア^*	3,958 teraFLOPS	3,341 teraFLOPS
INT8 Tensor コア^*	3,958 TOPS	3,341 TOPS
GPU メモリ	80GB	94GB
GPU メモリ帯域幅	3.35TB/秒	3.9TB/秒
デコーダー	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG
最大熱設計電力 (TDP: Thermal Design Power)	最大 700W (構成可能)	350-400W (構成可能)
マルチインスタンス GPU	各 10GB の最大 7 個の MIG	各 12GB の最大 14 個の MIG
フォームファクター	SXM	PCIe デュアルスロット空冷
相互接続	NVIDIA NVLink™: 900GB/秒 PCIe Gen5: 128GB/秒	NVIDIA NVLink: 600GB/秒 PCIe Gen5: 128GB/秒
サーバーオプション	4 または 8 GPU 搭載の NVIDIA HGX™ H100 パートナーおよび NVIDIA-Certified Systems™ 8 GPU 搭載の NVIDIA DGX™ H100	1～8 GPU 搭載のパートナーおよび NVIDIA Certified Systems™
NVIDIA AI Enterprise	アドオン	含む

* 疎性あり

NVIDIA Hopper アーキテクチャの詳細を見る。

ホワイトペーパーを読む