NVIDIA 多執行個體 GPU

單一 GPU 擁有 7 個獨立執行個體

多執行個體 GPU (MIG) 能提高 NVIDIA H100、A100 以及 A30 Tensor 核心 GPU 的效能和價值。多執行個體 GPU 讓每個 GPU 最多能分隔成 7 個執行個體，各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大，管理員可以支援任何規模的工作負載，確保服務品質 (QoS)，並將加速運算資源的範圍擴展至每個使用者。

優點
Blackwell
觀看 MIG
工作負載
規格

優點

優點
Blackwell
觀看 MIG
工作負載
規格

優勢概覽

讓更多人使用 GPU

有了多執行個體 GPU，就可以在單一 GPU 上獲得多達 7 倍的 GPU 資源。多執行個體 GPU 為研究人員和開發人員提供前所未有的資源和彈性。

將 GPU 利用率最佳化

多執行個體 GPU 具備彈性，讓使用者得以選擇許多不同大小的執行個體，再針對每個工作負載佈建大小合適的 GPU 執行個體，最終實現最佳利用率並將資料中心投資效益最大化。

執行同步工作負載

多執行個體 GPU 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和輸送量在單一 GPU 上同時執行。與時間切片不同，每個工作負載會同時執行，提供高效能。

技術原理

如果沒有多執行個體 GPU，在同一 GPU 上執行的不同工作，例如不同的人工智慧推論要求，會搶奪相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源，導致多項工作無法達成延遲度目標。有了多執行個體 GPU，多項工作就能在不同執行個體上同時執行，且全都具備運算、記憶體和記憶體頻寬的專用資源，進而透過 QoS 和最高的 GPU 使用率，達到可預期的效能。

根據需求佈建和設定執行個體

GPU 可以分隔為不同大小的 MIG 執行個體。例如，在 NVIDIA A100 40GB 中，管理員可以建立 2 個各具有 20 GB 記憶體的執行個體，也可以建立 3 個各具有 10GB 的執行個體，或是建立 7 個各具有 5GB 的執行個體，或是混合使用。

也能以動態方式重新設定多執行個體 GPU 的執行個體，使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說，白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論，並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體，進行深度學習訓練。

同時安全地執行工作負載

每個多執行個體 GPU 的執行個體都有一組專用的硬體資源，用於運算、記憶體和快取，可提供有保障的服務品質 (QoS) 和故障隔離。這也表示，即使有一個在執行個體上執行的應用程式發生故障，也不會對其他執行個體上執行的應用程式造成影響。

同時也代表不同的執行個體可以執行不同類型的工作負載，例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體，所以工作負載也在各自獨立的狀態下，於相同的實體 GPU 上同時執行。

NVIDIA H100 中的多執行個體 GPU

H100 採用 NVIDIA Hopper™ 架構，藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中，支援多租用戶和多使用者設定，進一步強化多執行個體 GPU，在硬體和虛擬機器監視器層級上，使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器，能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析，監控適當大小的 GPU 加速，並向多個使用者分派資源。

工作負載較低的研究人員，並不需要租用完整的雲端執行個體，可以使用多執行個體 GPU 安全隔離一部分 GPU，同時確保其資料在儲存、傳輸和使用時都能保持安全。如此一來，雲端服務供應商在定價與處理較少的客戶機會時，就能更有彈性。

觀看多執行個體 GPU 實際使用狀況

利用單一 A100 GPU 上執行多項工作負載

此技術展示會利用同一個 A100 GPU 同時執行人工智慧和高效能運算工作負載。

觀看影片

運用多執行個體 GPU 大幅提升效能和使用率

此技術展示將展示單一多執行個體 GPU 片段的推論效能，並在 A100 上以線性方式擴充。

觀看影片

專為 IT 和 DevOps 打造

多執行個體 GPU 可讓 IT 和 DevOps 團隊進行縝密的 GPU 佈建。每個多執行個體 GPU 的執行個體都像應用程式的獨立 GPU 一樣運作，因此 CUDA® 平台無需變更。多執行個體 GPU 可用於所有主要企業運算環境。

從資料中心部署到雲端

在本機、雲端和邊緣端使用多執行個體 GPU。

運用容器

在多執行個體 GPU 的執行個體上執行容器化應用程式。

支援 Kubernetes

在多執行個體 GPU 的執行個體上安排 Kubernetes Pod。

虛擬化應用程式

在虛擬機器內多執行個體 GPU 的執行個體上執行應用程式。

多執行個體 GPU 規格

	GB200/B200/B100	H100	H200
機密運算	有	有	有
執行個體類型	Up to 7x 23GB Up to 4x 45GB Up to 2x 95GB Up to 1x 192GB	7x 10GB 4x 20GB 2x 40GB 1x 80GB	Up to 7x 18GB Up to 4x 35GB Up to 2x 71GB Up to 1x 141GB
GPU 分析和監控	在所有執行個體上同時執行	在所有執行個體上同時執行	在所有執行個體上同時執行
安全租用戶	7x	7x	7x
媒體解碼器	每個執行個體專用的 NVJPEG 和 NVDEC	每個執行個體專用的 NVJPEG 和 NVDEC	每個執行個體專用的 NVJPEG 和 NVDEC

初步規格可能隨時變更

深入探索 NVIDIA Blackwell 架構

閱讀白皮書