NVIDIA Ampere アーキテクチャは、統合された NVIDIA EGX™ プラットフォームの一部であり、ハードウェア、ネットワーキング、ソフトウェア、ライブラリ、そして NVIDIA NGC™ カタログ内の最適化された AI モデルとアプリケーションのビルディング ブロックを組み合わせます。データ センター向けとして最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は短期間で実際の成果をあげ、ソリューションを大規模な運用環境に展開できます。
NVIDIA A30 Tensor コア GPU は、企業のあらゆるワークロードのパフォーマンスを高速化します。NVIDIA Ampere アーキテクチャの Tensor コアとマルチインスタンス GPU (MIG) で、大規模な AI 推論やハイパフォーマンス コンピューティング (HPC) アプリケーションといった、多様なワークロードを安全に高速化します。PCIe フォーム ファクターに高速のメモリ帯域幅と少ない電力消費が組み合わされており、メインストリーム サーバーに最適です。A30 はエラスティック データ センターを実現し、企業に最大限の価値をもたらします。
NVIDIA Ampere アーキテクチャは、統合された NVIDIA EGX™ プラットフォームの一部であり、ハードウェア、ネットワーキング、ソフトウェア、ライブラリ、そして NVIDIA NGC™ カタログ内の最適化された AI モデルとアプリケーションのビルディング ブロックを組み合わせます。データ センター向けとして最もパワフルなエンドツーエンド AI/HPC プラットフォームであり、研究者は短期間で実際の成果をあげ、ソリューションを大規模な運用環境に展開できます。
BERT Large ファインチューニング、収束までの時間
ERT-Large Pre-Training (9/10 エポック) フェーズ 1 および (1/10 エポック) フェーズ 2、シーケンス長: フェーズ 1 = 128 およびフェーズ 2 = 512、データセット = real、NGC™ コンテナー = 21.03、
8x GPU: T4 (FP32、BS=8、2)、V100 PCIE 16GB (FP32、BS=8、2)、A30 (TF32、BS=8、2)、A100 PCIE 40GB (TF32、BS=54、8)。示されているバッチ サイズはそれぞれフェーズ 1 用とフェーズ 2 用
対話型 AI といった次のレベルの課題に向けて AI モデルをトレーニングするには、膨大な演算能力とスケーラビリティが必要です。
NVIDIA A30 Tensor コア と Tensor Float (TF32) を利用することで、NVIDIA T4 と比較して最大 10 倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。スループットは合わせて 20 倍増えます。 NVIDIA® NVLink®、PCIe Gen4、NVIDIA Mellanox® ネットワーキング、 NVIDIA Magnum IO™SDK と組み合わせることで、数千の GPU までスケールできます。
Tensor コアと MIG により、A30 はいつでも柔軟にワークロードを処理できます要求がピークのときには本稼働推論に使用し、オフピーク時には一部の GPU を転用して同じモデルを高速で再トレーニングできます。
NVIDIA は、AI トレーニングの業界標準ベンチマークである MLPerf で複数のパフォーマンス記録を打ち立てています。
A30 には、推論ワークロードを最適化する画期的な機能が導入されています。FP64 から TF32 や INT4 まで、あらゆる精度を加速します。GPU あたり最大 4 つの MIG をサポートする A30 では、安全なハードウェア パーティションで複数のネットワークを同時に運用でき、サービス品質 (QoS) が保証されます。また、スパース構造により、A30 による数々の推論パフォーマンスの向上に加え、さらに最大 2 倍のパフォーマンスがもたらされます。
市場をリードする NVIDIA の AI パフォーマンスは MLPerf 推論で実証されました。AI を簡単に大規模展開する NVIDIA Triton™ 推論サーバー との組み合わせで、A30 はあらゆる企業に圧倒的なパフォーマンスをもたらします。
BERT Large 推論 (正規化済み)
レイテンシ 10 ms 未満でのスループット
NVIDIA® TensorRT®、精度 = INT8、シーケンス長 = 384、NGC コンテナー = 20.12、レイテンシ < 10 ms、データセット = 合成、1x GPU: A100 PCIE 40 GB (BS = 8) | A30 (BS = 4) | V100 SXM2 16 GB | T4 (BS = 1)
RN50 v1.5推論 (正規化)
7ms 以下のレイテンシでのスループット
TensorRT, NGC Container 20.12, Latency <7ms, Dataset=Synthetic, 1x GPU: T4 (BS=31, INT8) | V100 (BS=43, Mixed precision) | A30 (BS=96, INT8) | A100 (BS=174, INT8)
LAMMPS (正規化済み)
データセット: ReaxFF/C、FP64 | 4x GPU: T4、V100 PCIE 16 GB、A30
科学者たちは次世代の発見のため、私たちを取り巻いている世界をより良く理解しようと、シミュレーションに関心を向けています。
NVIDIA A30 は FP64 の NVIDIA Ampere アーキテクチャ Tensor コアを備えています。これは、GPU の導入以来の、HPC パフォーマンスにおける最大級の飛躍です。帯域幅が毎秒 933 ギガバイト (GB/s) の GPU メモリ 24 ギガバイト (GB) との組み合わせにより、研究者は倍精度計算を短時間で解決できます。HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットを上げることができます。
FP64 Tensor コアと MIG の組み合わせにより、研究機関は、GPU を安全に分割して複数の研究者がコンピューティング リソースを利用できるようにし、QoS を保証し、GPU 使用率を最大限まで高めることができます。AI を展開している企業は要求のピーク時に A30 を推論に利用し、オフピーク時には同じコンピューティング サーバーを HPC や AI トレーニングのワークロードに転用できます。
A30 と MIG の組み合わせは、GPU 対応インフラストラクチャの使用率を最大限に高めます。MIG を利用することで、A30 GPU を 4 つもの独立したインスタンスに分割できます。複数のユーザーが GPU アクセラレーションを利用できます。
MIG は、Kubernetes、コンテナー、 ハイパーバイザーベースのサーバー仮想化と連動します。MIG を利用することで、インフラストラクチャ管理者はあらゆるジョブに適切なサイズの GPU を提供し、QoS を保証できます。アクセラレーテッド コンピューティング リソースをすべてのユーザーに届けることが可能になります。
* 疎性あり
** 最大 2 つの GPU の NVLink ブリッジ
NVIDIA Ampere アーキテクチャの最先端技術をご覧ください。