NVIDIA H200 Tensor コア GPU

AI と HPC のワークロードを強化する。

発売中。

生成 AI と HPC のための GPU

NVIDIA H200 Tensor コア GPU は、市場を一変させるパフォーマンスとメモリ機能で生成 AI と HPC ワークロードを強化します。HBM3e を搭載した初の GPU である H200 の大容量かつ高速のメモリは、HPC ワークロードのための科学コンピューティングを推進しながら、生成 AI と大規模言語モデル (LLM) の高速化を促進します。

NVIDIA、世界をリードする AI コンピューティング プラットフォーム Hopper を強化

NVIDIA HGX H200 は、NVIDIA H200 Tensor コア GPU と高度なメモリを備え、生成 AI やハイパフォーマンス コンピューティング ワークロードのために大量のデータを処理します。

ハイライト

新たなレベルのパフォーマンスを体験

LLama2 70B 推論

1.9倍 の高速化

GPT3-175B 推論

1.6倍 の高速化

高性能コンピューティング

110倍 の高速化

利点

大容量で高速なメモリによる高いパフォーマンス

NVIDIA Hopper アーキテクチャをベースとする NVIDIA H200 は、毎秒 4.8 テラバイト (TB/s) で 141 ギガバイト (GB) の HBM3e メモリを提供する初の GPU です。これは、NVIDIA H100 Tensor コア GPU の約 2 倍の容量で、メモリ帯域幅は 1.4 倍です。H200 の大容量かつ高速なメモリは、生成 AI と LLM を加速し、エネルギー効率を向上させ、総所有コストを低減し、HPC ワークロードのための科学コンピューティングを前進させます。

参考仕様。変更される場合があります。
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 SXM 1x GPU BS 64 | H200 SXM 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM GPUs BS 64 | x8 H200 SXM GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 SXM 1x GPU BS 8 | H200 SXM 1x GPU BS 32.

高性能な LLM 推論でインサイトを引き出す

進化し続ける AI の世界では、企業はさまざまな推論のニーズに対応するために LLM を利用しています。AI 推論アクセラレータは、大規模なユーザー ベース向けにデプロイする場合、最小の TCO で最高のスループットを実現する必要があります。

H200 は、Llama2 のような LLM を扱う場合、H100 GPU と比較して推論速度を最大 2 倍向上します。

ハイパフォーマンス コンピューティングをスーパーチャージ

メモリ帯域幅は、より高速なデータ転送を実現することで、ボトルネックとなる複雑な処理を削減するため、ハイパフォーマンス コンピューティング アプリケーションにとって極めて重要です。シミュレーション、科学研究、人工知能のようなメモリを大量に使用する HPC アプリケーションでは、 H200 の高いメモリ帯域幅が、データへのアクセスと操作を効率化し、CPU と比較して 110 倍の早さで結果を得ることができます。

準備段階で測定されたパフォーマンスです。変更される可能性があります
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.

準備段階で測定されたパフォーマンスです。変更される可能性があります
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 1x GPU BS 8 | H200 1x GPU BS 32

エネルギーと TCO の削減

H200 の導入により、エネルギー効率と TCO が新たなレベルに到達します。この最先端のテクノロジは、すべて H100 Tensor コア GPU と同じ電力プロファイル内で、かつてないパフォーマンスを提供します。AI ファクトリーとスーパーコンピューティング システムは、高速なだけでなく、環境にも優しく、AI と科学のコミュニティを推進する経済的優位性を提供します。

メインストリーム エンタープライズ サーバーのための AI 高速化を解放する

NVIDIA H200 NVLは、柔軟な構成が求められる空冷式エンタープライズラック向けに最適化された低消費電力モデルです。あらゆる規模のAIおよびHPC処理に対応する高い処理性能を実現します。最大4基のGPUをNVIDIA NVLink™で接続し、1.5 倍のメモリ容量を備えることで、大規模言語モデル (LLM) の推論処理では H100 NVL 比で最大 1.7 倍、HPC 処理では最大 1.3 倍の性能向上を達成しています。

エンタープライズ対応: AI ソフトウェアが開発と展開を合理化

NVIDIA H200 NVL は、5 年間の NVIDIA AI Enterprise サブスクリプションにバンドルされており、エンタープライズ AI 対応プラットフォームの構築方法を簡素化します。H200 は、コンピューター ビジョン、スピーチ AI、検索拡張生成 (RAG) など、本番環境対応の生成 AI ソリューションの AI 開発と展開を加速します。NVIDIA AI Enterprise には、エンタープライズ生成 AI のデプロイを高速化するように設計された、使いやすいマイクロサービスのセットである NVIDIA NIM™ が含まれています。展開は、エンタープライズレベルのセキュリティ、管理性、安定性、サポートをもたらします。その結果、より迅速なビジネス価値と実用的な洞察を提供する、パフォーマンスに最適化された AI ソリューションが得られます。

仕様

NVIDIA H200 Tensor コア GPU

フォーム ファクター H200 SXM¹ H200 NVL¹
FP64 34 TFLOPS 30 TFLOPS
FP64 Tensor コア 67 TFLOPS 60 TFLOPS
FP32 67 TFLOPS 60 TFLOPS
TF32 Tensor コア² 989 TFLOPS 835 TFLOPS
BFLOAT16 Tensor コア² 1,979 TFLOPS 1,671 TFLOPS
FP16 Tensor コア² 1,979 TFLOPS 1,671 TFLOPS
FP8 Tensor コア² 3,958 TFLOPS 3,341 TFLOPS
INT8 Tensor コア² 3,958 TFLOPS 3,341 TFLOPS
GPU メモリ 141GB 141GB
GPU メモリ帯域幅 4.8TB/秒 4.8TB/秒
デコーダー 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
コンフィデンシャル コンピューティング サポート対象 サポート対象
最大熱設計電力 (TDP) 最大 700W(構成可能) 最大600W(設定可能)
マルチインスタンス GPU 各 18GB で最大 7 個の MIG 最大7パーティション(各16.5GB)
フォーム ファクター SXM PCIeデュアルスロット空冷
相互接続 NVIDIA NVLink™: 900GB/秒
PCIe Gen5: 128GB/秒
2台または4台構成時のNVIDIA NVLinkブリッジGPU1台あたり900GB/秒
PCIe Gen5: 128GB/秒
サーバー オプション GPU を 4 基または 8 基搭載の NVIDIA HGX™ H200 Partner および NVIDIA-Certified Systems™ NVIDIA MGX™ H200 NVLパートナーおよびNVIDIA認定システムで最大8基のGPU搭載可能
NVIDIA AI Enterprise アドオン 内容

NVIDIA のデータ センターのトレーニング パフォーマンスおよび推論パフォーマンスの詳細をご覧ください。

NVIDIA H200 Tensor コア GPU 仕様概要