NVIDIA マルチインスタンス GPU

1 つの GPU に 7 つの独立したインスタンス

マルチインスタンス GPU (MIG) は、NVIDIA H100A100A30 Tensor コア GPU のパフォーマンスと価値を高めます。MIG では、GPU を 7 個ものインスタンスに分割し、それぞれに高帯域幅のメモリ、キャッシュ、コンピューティング コアを割り当てたうえで完全に分離できます。これによりサービス品質 (QoS) が保証され、 アクセラレーテッド コンピューティング リソースをあらゆるユーザーに届けることができ、管理者はあらゆるワークロードに対応できます。

利点の概要

GPU アクセスを拡大する

MIG を利用すれば、1 つの GPU で GPU リソースを最大 7 倍にすることができます。MIG があれば、研究者や開発者はこれまでにない多くのリソースと柔軟性を得られます。

GPU 利用率を最適化する

MIG には、さまざまなインスタンス サイズを選択できる柔軟性があり、各ワークロードに適した規模で GPU インスタンスをプロビジョニングできます。結果的に、利用率が最適化され、データ センターに対する投資が最大化されます。

ワークロードを同時実行する

MIG を使用すると、推論、トレーニング、ハイ パフォーマンス コンピューティング (HPC) といった複数のワークロードを、互いのレイテンシとスループットに影響を与えることなく単一 GPU 上で同時に実行できます。タイム スライシングとは異なり、各ワークロードは並列で実行され、パフォーマンスが高くなります。

テクノロジの仕組み

MIG を使用しない場合、同じ GPU で実行されている複数のジョブ (各種の AI 推論リクエストなど) が、同一のリソースをめぐって競合することになります。メモリ帯域幅を多く消費するジョブがあると、他のジョブに十分な帯域幅を割り当てられなくなり、目標とするレイテンシを達成できないジョブがいくつか発生してしまいます。MIG を使用すれば、複数のインスタンスでジョブが同時に実行され、それぞれに専用のコンピューティング リソース、メモリ、メモリ帯域幅が割り当てられるため、パフォーマンスが予測可能になり、QoS が確保され、GPU が最大限まで活用されます。

必要に応じてインスタンスをプロビジョニングし、構成する

GPU は異なるサイズの MIG インスタンスに分割できます。たとえば、NVIDIA A100 40GB の場合、管理者は 20GB メモリのインスタンスを 2 つ作成するか、10 GB メモリのインスタンスを 3 つ作成するか、5 GB メモリのインスタンスを 7 つ作成できます。または組み合わせて。 

MIG インスタンスは構成を動的に変更させることもできます。管理者は、ユーザーや業務上の要求が変わったときに、それに合わせて GPU リソースを変更できます。たとえば、昼はスループットの低い推論のために 7 つの MIG インスタンスを使用し、夜はディープラーニング トレーニングのために 1 つの大きな MIG インスタンスに再構成することが可能です。

ワークロードを並列で安全に実行する

専用のコンピューティング、メモリ、キャッシュのハードウェア リソースを割り当てることで、各 MIG インスタンスで QoS が確保され、故障が分離されます。つまり、あるインスタンスで実行されているアプリケーションに問題が発生しても、他のインスタンスで実行されているアプリケーションには影響が出ません。

また、対話式のモデル開発、ディープラーニング トレーニング、AI 推論、HPC アプリケーションといったさまざまな種類のワークロードを異なるインスタンスで実行できることを意味します。インスタンスが並列で実行されるため、ワークロードも同じ物理 GPU 上で並列実行されますが、分離されています。

NVIDIA H100 の MIG

NVIDIA Hopper™ アーキテクチャ、H100 は MIG の機能を強化するものです。最大 7 個の GPU インスタンスで仮想環境のマルチテナント/マルチユーザー構成をサポートします。コンフィデンシャル コンピューティングによってハードウェアおよびハイパーバイザー レベルで各インスタンスが分離されるため、安全です。MIG インスタンスごとに専用のビデオ デコーダーが与えられ、共有インフラストラクチャで安定したハイスループットのインテリジェント ビデオ解析 (IVA) が実現します。Hopper の同時実行 MIG プロファイリングを利用すると、管理者はユーザーのために正しいサイズの GPU 高速化を監視し、リソースを複数のユーザーに割り当てることができます。 

研究者のワークロードが比較的少ない場合、完全なクラウド インスタンスを借りる代わりに、MIG を利用して GPU の一部を安全に分離することを選択できます。保存中、移動中、使用中のデータが安全なため、安心です。これにより、クラウド サービス プロバイダーの柔軟性が向上し、より少ない顧客機会に価格を設定し、対処することができます。

実際の MIG を見る

単一の A100 GPU で複数のワークロードを実行する

このデモでは、AI とハイ パフォーマンス コンピューティング (HPC) のワークロードを同じ A100 GPU で同時に実行します。

マルチインスタンス GPU でパフォーマンスと使用率を高める

このデモでは、MIG のシングル スライスでの推論パフォーマンスを示し、A100 全体で線形にスケーリングします。

IT と DevOps 向けに開発

MIG では、IT と DevOps のチームが GPU を細かくプロビジョニングできます。各 MIG インスタンスは、アプリケーションに対してスタンドアロン GPU のように振る舞います。そのため、CUDA® プラットフォームに変更はありません。MIG は、すべての主要なエンタープライズ コンピューティング環境で使用できます。

MIG の仕様

  GB200/B200/B100 H100 H200
コンフィデンシャル コンピューティング 対応 対応 対応
インスタンスの種類 最大 7x 23GB
最大 4x 45GB
最大 2x 95GB
最大 1x 192GB
7x 10GB
4x 20GB
2x 40GB
1x 80GB
最大 7x 18GB
最大 4x 35GB
最大 2x 71GB
最大 1x 141GB
GPU のプロファイリングと監視 すべてのインスタンスで同時実行 すべてのインスタンスで同時実行 すべてのインスタンスで同時実行
テナントの保護 7x 7x 7x
メディア デコーダー インスタンスあたりの専用 NVJPEG と NVDEC インスタンスあたりの専用 NVJPEG と NVDEC インスタンスあたりの専用 NVJPEG と NVDEC

仕様は変更される場合があります。

NVIDIA Blackwell アーキテクチャの詳細を見る