— スウェーデンのチャルマース工科大学
MLPerf ベンチマーク
NVIDIA AI プラットフォームは、MLPerf トレーニング、推論、HPC において、業界をリードする性能と汎用性を示しており、最も要求の厳しい実世界の AI ワークロードに対応します。
学界、研究機関、業界の AI リーダーたちによるコンソーシアムである MLCommons によって開発された MLPerf™ ベンチマークは、ハードウェア、ソフトウェア、サービスの学習と推論の性能を公平な評価を提供するように設計されています。この評価はすべて、所定の条件下で実施されます。業界トレンドの最先端を維持するため、MLPerf は定期的に新しいテストを実施したり、AI の最先端を示す新しいワークロードを追加するなど、進化し続けています。
MLPerf Training v3.1 では、大規模言語モデル (LLM)、画像生成、コンピューター ビジョン、医用画像セグメンテーション、音声認識、レコメンデーションなど、9 つの異なるユース ケースでモデル学習にかかる時間を計測します。
MLPerf Inference v3.1 では、LLM、自然言語処理、コンピューター ビジョン、医用画像セグメンテーションなど、7 種類の異なるニューラル ネットワークを使用して推論性能をテストします。
MLPerf HPC v3.0 では、大気の川の特定、宇宙論パラメーターの予測、量子分子モデリング、タンパク質構造予測など、4 つの異なる科学計算のユース ケースをテストします。
NVIDIA H100 Tensor コア GPU と NVIDIA Quantum-2 InfiniBand ネットワーキングを搭載した NVIDIA アクセラレーテッド コンピューティング プラットフォームは、MLPerf Training v3.1 で大規模な LLM 学習性能の記録を破り、GPT-3 175B ベンチマークで、ほぼリニアのスケーリング効率を持つ 10,752 基の H100 GPU のかつてない規模で 2 つのサブミッションのパワーとなりました。また、Stable Diffusion をベースとする新しく追加されたテキストの画像変換テストでは、NVIDIA プラットフォームが最高のパフォーマンスと比類のないスケーラビリティで新しい水準を打ち立てました。データ センター規模での絶え間ないフルスタック エンジニアリングにより、NVIDIA は AI 学習性能を加速し続けています。
最新の大規模言語モデルとテキストの画像変換テストで画期的な性能を示したことに加え、NVIDIA は、MLPerf Trainingv3.1 のレコメンダー、物体検出、医用画像セグメンテーション、自然言語処理のワークロードにおいても新たな性能の記録を打ち立てました。NVIDIA H100 GPU と NVIDIA Quantum-2 を備えた NVIDIA プラットフォームは、あらゆるベンチマークで最速の学習時間を提供し続け、あらゆる AI ワークロードに対応できる比類のない性能と汎用性を示します。
NVIDIA H100 Tensor コア GPU は、あらゆる MLPerf Inference v3.1 データ センターのワークロードとシナリオで、最もスループットの高いシステムにパワーを与えました。NVIDIA GH200 Grace Hopper™ Superchip は、その MLPerf デビューであらゆるワークロードを実行し、H100 の卓越した性能を拡大しました。 NVIDIA L4 Tensor コア GPU も、主流サーバー向けに最も効率的な NVIDIA アクセラレータとして最適化されており、さまざまなテストで優れた結果を残しました。エネルギー効率に優れ、エッジ AI とロボティクスに応用される NVIDIA Jetson AGX Orin™ と Jetson Orin NX もまたもや、システムオンモジュールの傑出した推論能力を示しました。
NVIDIA GH200 Grace Hopper Superchip (推論/秒) | NVIDIA H100 (推論/秒) | NVIDIA L4 (推論/秒) | NVIDIA Jetson AGX Orin (最大推論/クエリ) | NVIDIA Jetson Orin NX (最大推論/クエリ) | |
---|---|---|---|---|---|
GPT-J (大規模言語モデル) | 13.34 | 13.29 | 1.30 | なし | なし |
DLRMv2 (レコメンダー) | 49,002 | 42,856 | 3,673 | なし* | なし* |
BERT (自然言語処理)** | 8,646 | 7,878 | 631 | 554 | 195 |
ResNet-50 v1.5 (画像分類) | 93,198 | 88,526 | 12,882 | 6,424 | 2,641 |
RetinaNet (物体検出) | 1,849 | 1,761 | 226 | 149 | 67 |
RNN-T (音声認識) | 25,975 | 23,307 | 3,899 | 1,170 | 432 |
3D U-Net (医用画像処理) | 6.8 | 6.5 | 1.07 | 0.51 | 0.20 |
NVIDIA A100 (x86 CPU) (推論/秒) |
NVIDIA A100 (Arm CPU) (推論/秒) |
NVIDIA A30 (推論/秒) |
NVIDIA® Jetson AGX Orin™ (最大推論/クエリ) |
|
---|---|---|---|---|
DLRM (レコメンダー) |
312,380 | 281,283 | 138,194 | N/A* |
BERT (自然言語処理) |
3,490 | 3,149 | 1,668 | 476 |
ResNet-50 v1.5 (画像分類) |
39,190 | 36,487 | 18,406 | 6,139 |
ResNet-34 (大規模な Single-Shot Detector) |
990 | 906 | 478 | 208 |
RNN-T (音声認識) |
13,344 | 13,188 | 6,557 | 1,110 |
3D U-Net (医用画像処理) |
3 | 3 | 2 | 0.5 |
* DLRMv2 はエッジ カテゴリ スイートに含まれていません。
** H100、A100、L4 に BERT 99.9% の精度目標を使用。Jetson AGX Orin と Jetson Orin NX に BERT 99% を使用。これは BERT ベンチマークの「MLPerf Inference: Edge」カテゴリでサポートされている最高精度目標です
1) MLPerf 推論 v3.1 データ センターのオフライン シナリオの結果は www.mlperf.org から 2023 年 9 月 11 日に取得されました。エントリは 3.1-0106、3.1-0107、3.1-0108、3.1-0110 です。プロセッサ当たりのパフォーマンスは、MLPerf Inference v3.1 の第一指標ではありません。プロセッサ当たりのパフォーマンスは、報告されたアクセラレータ数で全体のパフォーマンスの第一指標を割って算出されます。
2) MLPerf Inference v3.1 edge のオフライン シナリオの結果は www.mlperf.org から 2023 年 9 月 11 日に取得されました。エントリは 3.1-0114 と 3.1-0116 です。プロセッサ当たりのパフォーマンスは、MLPerf Inference v3.1 の第一指標ではありません。プロセッサ当たりのパフォーマンスは、報告されたアクセラレータ数で全体のパフォーマンスの第一指標を割って算出されます。
NVIDIA H100 Tensor コアは、その MLPerf HPC v3.0 デビューにおいて、HPC および AI 向けの NVIDIA プラットフォームをスーパーチャージし、パフォーマンスを最大 2 倍向上し、学習時間指標とスループット指標の両方にわたりすべてのワークロードで最高のパフォーマンスを達成しました。また、気候セグメンテーション、宇宙論パラメーター予測、量子分子モデリング、そして最後に追加されたタンパク質構造予測を網羅する、あらゆる MLPerf HPC ワークロードで結果を提出できた唯一のプラットフォームが NVIDIA プラットフォームでした。NVIDIA プラットフォームは、その比類なき性能と汎用性により、AI を活用した科学的発見の次の波を後押しする手段として最適です。
NVIDIA フルスタック イノベーションがパフォーマンスの向上を推進
AI の仕組みは複雑であり、プラットフォームのあらゆる面をしっかりと統合することが必要となります。MLPerf のベンチマークが示したように、NVIDIA AI プラットフォームは、世界最先端の GPU、パワフルかつ拡張性の高い相互接続テクノロジ、最新のソフトウェアにより、他をリードするパフォーマンスを提供します。これはデータ センター、クラウド、エッジでデプロイ可能なエンドツーエンドのソリューションで、驚異的な成果をもたらします。
NVIDIA プラットフォームと MLPerf の学習および推論の成果に欠かせない要素である NGC™ カタログ は、 GPU で最適化された AI、HPC、データ分析ソフトウェアのハブであり、エンドツーエンドのワークフローを簡素化し、高速化します。生成 AI、対話型 AI、レコメンダー システムのワークロードなどを含む 150 以上のエンタープライズグレードのコンテナー、数百もの AI モデル、オンプレミス、クラウド、またはエッジにデプロイ可能な業界固有の SDK を活用可能な NGC により、データ サイエンティスト、研究者、開発者は、クラス最高のソリューションを構築し、インサイトを収集し、これまで以上に迅速にビジネス価値を提供できるようになります。
トレーニングと推論において世界をリードする結果を達成するには、世界で最も複雑な AI の課題に特化したインフラが必要です。NVIDIA AI プラットフォームは、NVIDIA GH200 Grace Hopper Superchip、NVIDIA H100 Tensor コア GPU、NVIDIA L4 Tensor コア GPU と、NVIDIA の相互接続技術 (NVIDIA® NVLink® および NVSwitch™ 、NVIDIA Quantum-2 InfiniBand) の拡張性と柔軟性によって、業界をリードするパフォーマンスを実現しました。これらは NVIDIA データ センター プラットフォームの中核であり、NVIDIA のベンチマーク性能を支えるエンジンです。
加えて、NVIDIA DGX™ システムは、は、拡張性、迅速な導入、驚異的な演算性能を提供し、あらゆる企業が業界トップクラスの AI インフラを構築できるようにします。
NVIDIA のデータ センター学習および推論製品のパフォーマンスの詳細をご覧ください。