NVIDIA H100 Tensor コア GPU

NVIDIA H100 Tensor コア GPU

あらゆるデータセンターに卓越したパフォーマンス、拡張性、セキュリティを提供します。

アクセラレーテッド コンピューティングの大きな飛躍

NVIDIA H100 Tensor コア GPU は、比類なきパフォーマンス、拡張性、セキュリティをあらゆるワークロードに提供します。H100 は、NVIDIA Hopper™ アーキテクチャをベースにした画期的な革新技術を利用して、業界最高水準の対話型 AI を提供し、大規模言語モデル (LLM) を 30 倍高速化します。H100 には、兆単位のパラメーターをもつ言語モデルに対応する専用の Transformer Engine も含まれています。

エンタープライズからエクサスケールまで、ワークロードをセキュアに高速化

GPT-3 上の AI トレーニングを最大 4 倍高速化

GPT-3 上の AI トレーニングを最大 4 倍高速化

予想性能は変更される可能性があります。GPT-3 175B トレーニング A100 クラスター: HDR IB ネットワーク、H100 クラスター: NDR IB ネットワーク | Mixture of Experts (MoE) Training Transformer Switch-XXL バリアントと 1T トークン データセット上の 395B パラメーター、A100 クラスター: HDR IB ネットワーク、H100 クラスター: 記載されている場合は NVLink® Switch System を備えた NDR IB ネットワーク。

変革的な AI トレーニング

H100 は第 4 世代の Tensor コアと FP8 精度をサポートする Transformer Engine を備えており、GPT-3 (175B) モデル用の前世代と比較して最大 4 倍高速化されたトレーニングを実現します。GPU 間を毎秒 900 ギガバイトで相互接続する第 4 世代 NVLink、ノード間のGPU ごとに通信を高速化する NDR Quantum-2 InfiniBand ネットワーキング、PCIe Gen5、NVIDIA Magnum IO™ ソフトウェアの組み合わせにより、小規模なエンタープライズ システムから大規模な統合 GPU クラスターまで効率的な拡張性を提供します。

データ センター規模で H100 GPU を導入することで卓越したパフォーマンスが実現され、次世代のエクサスケール ハイパフォーマンス コンピューティング (HPC) と1兆パラメーター AI があらゆる研究者の手が届くものとなります。

リアルタイムのディープラーニング推論

AI は、広範囲のビジネスの課題を、同じくらい広範囲にわたるニューラル ネットワークを使用して解決します。優れた AI 推論アクセラレータには、最高のパフォーマンスだけでなく、これら広範囲に及ぶネットワークを高速化する汎用性も求められます。

H100 は、推論を最大 30 倍高速化し、遅延を最小限に抑えるなど、いくつかの機能強化によって、市場をリードする NVIDIA の推論におけるリーダーシップを拡大します。第 4 世代の Tensor コアは、FP64、TF32、FP32、FP16、INT8、そして今回の FP8 に至るまで、すべての精度を高速化し、LLM の精度を維持しながらメモリ消費を削減して性能を向上します。

最大規模のモデルで AI 推論性能を最大 30 倍に

Megatron チャットボット推論 (5300 億パラメーター)

リアルタイムのディープラーニング推論

予想パフォーマンスは変更される場合があります。Megatron 530B パラメータ モデルをベースとしたチャットボットの入力シーケンス長 = 128、出力シーケンス長 = 20 | A100 クラスター: HDR IB ネットワーク | H100 クラスター: NVLink Switch System、NDR IB

HPC アプリケーションのパフォーマンスが最大 7 倍に

AI 融合 HPC アプリケーション

予想パフォーマンスは変更される場合があります。3D FFT (4K^3) スループット | A100 クラスター: HDR IB ネットワーク | H100 クラスター: NVLink Switch System、NDR IB | ゲノム シーケンシング (Smith-Waterman) | 1 A100 | 1 H100

エクサスケール ハイパフォーマンス コンピューティング

NVIDIA データ センター プラットフォームはムーアの法則以上に、パフォーマンスを継続的に向上させます。また、H100 の新しい画期的な AI 機能は、HPC+AI のパワーをさらに増大させ、世界の最重要課題の解決に取り組む科学者や研究者が発見に至るまでの時間が高速化されます。

H100 は、倍精度 Tensor コアの毎秒浮動小数点演算 (FLOPS) を 3 倍にし、HPC で 60 TFLOPS の FP64 コンピューティングを実現します。AIと 融合した HPC アプリケーションでは、H100 の TF32 精度を活用し、単精度行列乗算演算で 1 PFLOP のスループットを実現します。コードの変更はゼロです。

H100 はまた、新しい DPX 命令を搭載しており、DNA 配列の Smith-Waterman や、たんぱく質構造予測のたんぱく質配列など、動的プログラミング アルゴリズムで A100 と比較して 7 倍のパフォーマンスアップを、CPU と比較して 40 倍のスピードアップを実現します。

DPX 命令比較: NVIDIA HGX™ H100 4-GPU 対 デュアル ソケット 32 コア IceLake

高速データ分析

データ分析は多くの場合、AI アプリケーションの開発時間の大半を占めます。大規模なデータセットは複数のサーバーに分散されるため、市販の CPU だけのサーバーによるスケールアウト ソリューションでは、スケーラブルなコンピューティング パフォーマンスに欠け、立ち往生してしまいます。

H100 を搭載した高速化サーバーなら、GPU ごとに毎秒 3 テラバイト (TB/s) のメモリ帯域幅、NVLink と NVSwitch™ によるスケーラビリティにより、膨大なデータセットに対処する高いパフォーマンスとスケールでデータ分析が可能です。NVIDIA Quantum-2 Infiniband、Magnum IO ソフトウェア、GPU 高速化 Spark 3.0、NVIDIA RAPIDS™ と組み合わせることで、NVIDIA データ センター プラットフォームは、より高レベルのパフォーマンスと効率性で膨大なワークロードを、他にはない方法で高速化できます。

H100 を使用した高速サーバー
NVIDIA マルチインスタンス GPU

企業で効率的に利用

IT マネージャーはデータ センターにおけるコンピューティング リソース利用率の最大化 (ピーク時と平均値の両方)を求めています。多くの場合、使用中のワークロードに合わせてリソースを適切なサイズに設定するために、コンピューティングの動的な再構成を採用しています。

MIG を搭載した H100 なら、インフラストラクチャ管理者は GPU アクセラレーテッド インフラストラクチャを標準化でき、同時に、GPU リソースを非常に細かくプロビジョニングできます。正しい量のアクセラレーテッド コンピューティングが安全に開発者に提供され、GPU リソースの使用量を最適化します。

コンフィデンシャル コンピューティングを内蔵

従来のコンフィデンシャル コンピューティング ソリューションは CPU ベースのため、AI など大規模な計算負荷の高いワークロードの処理には限界があります。NVIDIA コンフィデンシャル コンピューティングは NVIDIA Hopper™ アーキテクチャに組まれているセキュリティ機能で、H100 は、これらの機能を備えた世界初のアクセラレータとなりました。NVIDIA Blackwell は、使用中のデータとアプリケーションの機密性と完全性を保護しながら、パフォーマンスを飛躍的に向上させる機会が得られ、これまでにはないデータに関するインサイトを引き出すことができます。顧客は、ハードウェア ベースの TEE (信頼できる実行環境) を使用して、最も高いパフォーマンスが得られる方法でワークロード全体を保護し、分離できるようになります。

NVIDIA コンフィデンシャル コンピューティング ソリューション
NVIDIA コンフィデンシャル コンピューティング ソリューション

大規模 AI と HPC のための卓越したパフォーマンス

Hopper Tensor コア GPU は、テラバイト規模のアクセラレーテッド コンピューティング向けに開発された NVIDIA Grace Hopper CPU+GPU アーキテクチャを強化し、大規模モデルの AI と HPC において 10 倍のパフォーマンス向上を実現します。NVIDIA Grace CPU は Arm® アーキテクチャの柔軟性を活用するものです。アクセラレーテッド コンピューティング向けにゼロから設計された CPU とサーバーのアーキテクチャを実現します。Hopper GPU は NVIDIA の超高速チップ間相互接続を使用して Grace CPU とペアリングされます。PCIe Gen5 と比較して 7 倍の速さとなる、毎秒 900GB の帯域幅を実現します。この革新的な設計によって、現行の最速サーバーと比較し、GPU への合計システムメモリ帯域幅が最大 30 倍になり、テラバイト単位のデータを処理するアプリケーションのパフォーマンスが最大 10 倍向上します。

H100 NVL を使用して大規模言語モデルの推論を強化

H100 NVL を使用して大規模言語モデル推論を強化

最大 700 億パラメーターの LLM (Llama 2 70B) の場合、NVLink ブリッジを持つ PCIe ベースの NVIDIA H100 NVL が、Transformer Engine、NVLink、188GB HBM3 メモリを利用して、あらゆるデータ センターで最適なパフォーマンスと簡便な拡張性を提供し、LLM を主流へと導きます。H100 NVL GPU を搭載したサーバーであれば、電力に制限のあるデータ センター環境で低遅延性を維持しながら、Llama 2 70B のパフォーマンスを NVIDIA A100 システムの最大 5 倍にまで向上します。

エンタープライズ対応: AI ソフトウェアが開発と展開を合理化

NVIDIA H100 NVL には、5 年間の NVIDIA AI Enterprise サブスクリプションが付属し、エンタープライズ AI 対応プラットフォームの構築を簡素化します。H100 は、コンピュータ ビジョン、スピーチ AI、検索拡張生成 (RAG) など、本番環境に対応した生成 AI ソリューションの AI 開発とデプロイを加速します。NVIDIA AI Enterprise には、エンタープライズにおける生成 AI のデプロイを高速化するように設計された使いやすいマイクロサービスのセットである NVIDIA NIMTM が含まれています。これらを組み合わせることで、エンタープライズ グレードのセキュリティ、管理の容易さ、安定性、サポートを実現するデプロイが可能になります。これによりより迅速にビジネス価値と実践的なインサイトをもたらす、パフォーマンスに最適化された AI ソリューションが実現します。

製品仕様

  H100 SXM H100 NVL
FP64 34 teraFLOPS 30 teraFLOPs
FP64 Tensor コア 67 teraFLOPS 60 teraFLOPs
FP32 67 teraFLOPS 60 teraFLOPs
TF32 Tensor コア* 989 teraFLOPS 835 teraFLOPs
BFLOAT16 Tensor コア* 1,979 teraFLOPS 1,671 teraFLOPS
FP16 Tensor コア* 1,979 teraFLOPS 1,671 teraFLOPS
FP8 Tensor コア* 3,958 teraFLOPS 3,341 teraFLOPS
INT8 Tensor コア* 3,958 TOPS 3,341 TOPS
GPU メモリ 80GB 94GB
GPU メモリ帯域幅 3.35TB/秒 3.9TB/秒
デコーダー 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
最大熱設計電力 (TDP: Thermal Design Power) 最大 700W (構成可能) 350-400W (構成可能)
マルチインスタンス GPU 各 10GB の最大 7 個の MIG 各 12GB の最大 14 個の MIG
フォーム ファクター SXM PCIe
デュアルスロット空冷
相互接続 NVIDIA NVLink™: 900GB/秒
PCIe Gen5: 128GB/秒
NVIDIA NVLink: 600GB/秒
PCIe Gen5: 128GB/秒
サーバー オプション 4 または 8 GPU 搭載の NVIDIA HGX™ H100 パートナーおよび NVIDIA-Certified Systems™
8 GPU 搭載の NVIDIA DGX™ H100
1~8 GPU 搭載のパートナーおよび NVIDIA Certified Systems™
NVIDIA AI Enterprise アドオン 含む

NVIDIA Hopper アーキテクチャの詳細を見る。

Select Location
Middle East