Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
多執行個體 GPU (MIG) 能提高 NVIDIA H100、A100 以及 A30 Tensor 核心 GPU 的效能和價值。多執行個體 GPU 讓每個 GPU 最多能分隔成 7 個執行個體,各自完全獨立且具備個別的高頻寬記憶體、快取和運算核心。從最小到最大,管理員可以支援任何規模的工作負載,確保服務品質 (QoS),並將加速運算資源的範圍擴展至每個使用者。
有了多執行個體 GPU,就可以在單一 GPU 上獲得多達 7 倍的 GPU 資源。多執行個體 GPU 為研究人員和開發人員提供前所未有的資源和彈性。
多執行個體 GPU 具備彈性,讓使用者得以選擇許多不同大小的執行個體,再針對每個工作負載佈建大小合適的 GPU 執行個體,最終實現最佳利用率並將資料中心投資效益最大化。
多執行個體 GPU 可以將推論、訓練和高效能運算 (HPC) 工作負載以決定性的延遲和輸送量在單一 GPU 上同時執行。與時間切片不同,每個工作負載會同時執行,提供高效能。
如果沒有多執行個體 GPU,在同一 GPU 上執行的不同工作,例如不同的人工智慧推論要求,會搶奪相同的資源。消耗較大記憶體頻寬的作業會佔據其他工作的資源,導致多項工作無法達成延遲度目標。有了多執行個體 GPU,多項工作就能在不同執行個體上同時執行,且全都具備運算、記憶體和記憶體頻寬的專用資源,進而透過 QoS 和最高的 GPU 使用率,達到可預期的效能。
GPU 可以分隔為不同大小的 MIG 執行個體。例如,在 NVIDIA A100 40GB 中,管理員可以建立 2 個各具有 20 GB 記憶體的執行個體,也可以建立 3 個各具有 10GB 的執行個體,或是建立 7 個各具有 5GB 的執行個體,或是混合使用。
也能以動態方式重新設定多執行個體 GPU 的執行個體,使管理員能夠根據不斷變化的使用者和業務需求轉移 GPU 資源。舉例來說,白天可以使用 7 個多執行個體 GPU 執行個體進行低輸送量推論,並在夜間重新設定為 1 個大型多執行個體 GPU 執行個體,進行深度學習訓練。
每個多執行個體 GPU 的執行個體都有一組專用的硬體資源,用於運算、記憶體和快取,可提供有保障的服務品質 (QoS) 和故障隔離。這也表示,即使有一個在執行個體上執行的應用程式發生故障,也不會對其他執行個體上執行的應用程式造成影響。
同時也代表不同的執行個體可以執行不同類型的工作負載,例如互動式模型開發、深度學習訓練、人工智慧推論或高效能運算應用程式。由於同時執行執行個體,所以工作負載也在各自獨立的狀態下,於相同的實體 GPU 上同時執行。
H100 採用 NVIDIA Hopper™ 架構,藉由在橫跨至多七個 GPU 執行個體的虛擬化環境中,支援多租用戶和多使用者設定,進一步強化多執行個體 GPU,在硬體和虛擬機器監視器層級上,使用機密運算安全隔離每個執行個體。每個多執行個體 GPU 的執行個體專用影片解碼器,能在共用基礎架構上提供安全、高傳輸量的智慧影像分析 (IVA)。管理員可以利用 Hopper 的同步多執行個體 GPU 分析,監控適當大小的 GPU 加速,並向多個使用者分派資源。
工作負載較低的研究人員,並不需要租用完整的雲端執行個體,可以使用多執行個體 GPU 安全隔離一部分 GPU,同時確保其資料在儲存、傳輸和使用時都能保持安全。如此一來,雲端服務供應商在定價與處理較少的客戶機會時,就能更有彈性。
此技術展示會利用同一個 A100 GPU 同時執行人工智慧和高效能運算工作負載。
此技術展示將展示單一多執行個體 GPU 片段的推論效能,並在 A100 上以線性方式擴充。
多執行個體 GPU 可讓 IT 和 DevOps 團隊進行縝密的 GPU 佈建。每個多執行個體 GPU 的執行個體都像應用程式的獨立 GPU 一樣運作,因此 CUDA® 平台無需變更。多執行個體 GPU 可用於所有主要企業運算環境。
在本機、雲端和邊緣端使用多執行個體 GPU。
在多執行個體 GPU 的執行個體上執行容器化應用程式。
在多執行個體 GPU 的執行個體上安排 Kubernetes Pod。
在虛擬機器內多執行個體 GPU 的執行個體上執行應用程式。
初步規格可能隨時變更
深入探索 NVIDIA Blackwell 架構