Tensor コアは、混合精度のコンピューティングを可能にし、動的に演算を調整することで精度を維持し、セキュリティを強化しながらスループットを加速します。最新世代の Tensor コアは、多数の AI およびハイ パフォーマンス コンピューティング (HPC) タスクをこれまで以上に高速化します。パラメーターが兆単位の生成 AI モデルのトレーニングを 4 倍高速化し、推論パフォーマンスを 30 倍向上させた NVIDIA Tensor コアは、最新の AI ファクトリのあらゆるワークロードを高速化します。
Blackwell アーキテクチャは、GPT-MoE-1.8T のような巨大モデルにおいて、前世代の NVIDIA Hopper™ と比較して 30 倍の高速化を実現します。このパフォーマンスの向上は、第 5 世代の Tensor コアによって可能になりました。Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットを含む新しい精度を追加し、正確度が向上し、より高い精度に代替させやすくなっています。
生成 AI モデルのサイズと複雑さは劇的に増加しており、トレーニングと推論のパフォーマンスを向上させることが重要になります。このようなコンピューティング処理のニーズに応えるために、Blackwell Tensor コアは、コミュニティ定義のマイクロスケーリング フォーマットを含む、新しい量子化フォーマットと精度をサポートします。
Tensor コア テクノロジ が導入されたことで NVIDIA GPU はピーク時のパフォーマンスが 60 倍になり、AI と HPC のためのコンピューティングを広めています。NVIDIA Hopper™ アーキテクチャは FP8 を使用して Transformer Engine を搭載した第 4 世代 Tensor コアを発展させ、FP16 より 6 倍高いパフォーマンスを生み出し、兆単位のパラメーターのモデル トレーニングを実現します。TF32、FP64、FP16、INT8 の精度でパフォーマンスを 3 倍にする Hopper Tensor コアは、あらゆるワークロードを高速化します。
ハードウェア、ネットワーク、ソフトウェア、ライブラリ、最適化された AI モデル、NVIDIA NGC™ カタログのアプリケーションが組み込まれた完全な NVIDIA データ センター ソリューションにおいて、極めて重要な構成要素になるのが Tensor コアです。最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。
Blackwell | Hopper | |
---|---|---|
サポートされている Tensor コア精度 | FP64, TF32, BF16, FP16, FP8, INT8, FP6, FP4 | FP64, TF32, BF16, FP16, FP8, INT8 |
サポートされている CUDA® コア精度 | FP64, FP32, FP16, BF16 | FP64, FP32, FP16, BF16, INT8 |
*仕様は変更される場合があります。
NVIDIA Blackwell の詳細をご覧ください。