適用現代 GPU 加速資料中心的 IO 子系統
資料中心是全新的運算中心,而其核心則是 NVIDIA GPU 和 NVIDIA 網路。加速運算需要加速輸入/輸出 (IO) 以將效能發揮到極致。現代資料中心的 IO 子系統 NVIDIA® Magnum IO™ 是適用於平行、非同步和智慧資料中心 IO 的架構,可將多 GPU、多節點加速的儲存空間和網路 IO 效能發揮到極致。
Magnum IO 是資料中心的 IO 子系統,提供加速 IO 與支援多租戶資料中心通訊所需的增強功能,又稱為支援雲端原生超級運算的 Magnum IO。
採用 InfiniBand 網路的 Magnum IO GPUDirect 協助 Verizon 在發佈立體影片架構上取得突破。透過將技術置入位於全美各地運動中心與 Verizon 設施內的多重存取邊緣運算 (MEC) 中心,在媒體上提供 3D 體驗,以及觀賞運動賽事的全新方式。
繞過 CPU,在 GPU 記憶體、網路和儲存空間啟用直接 IO,將頻寬提升 10 倍。
可減緩 CPU 爭用問題來建立更平衡的 GPU 加速系統,提供最高 IO 頻寬,因此可讓 CPU 核心的數量少 10 倍,並讓 CPU 使用率降低 30 倍。
無論資料傳輸是縝密又延遲敏感、粗疏又頻寬敏感或集體,都能為目前和未來的平台提供最佳化實作。
Magnum IO 運用儲存空間 IO、網路 IO、網路內運算和 IO 管理,簡化並加速多 GPU、多節點系統的資料活動、存取和管理。Magnum IO 支援 NVIDIA CUDA-X™ 函式庫,並充分運用一系列的 NVIDIA GPU 和 NVIDIA 網路硬體拓撲,可達到最佳輸送量和低延遲度。
[開發人員部落格] Magnum IO - 在現代資料中心內加速 IO
在多節點、多 GPU 系統、緩慢的 CPU 中,單一執行緒效能位於本機或遠端儲存裝置的資料存取關鍵路徑。GPU 藉由儲存空間 IO 加速,可繞過 CPU 和系統記憶體,並透過 8 個每秒 200 GB 的 NIC 存取遠端儲存空間,進而達到最高每秒 1.6 兆位元的原始儲存空間頻寬。
採用技術:
NVIDIA NVLink® 網狀架構與 RDMA 網路 IO 加速可降低 IO 額外負荷、繞過 CPU,並以線路速率啟用 GPU 之間的直接資料傳輸。
網路內運算可在網路內進行處理,進而消除傳輸至端點時導致的延遲,以及過程中的躍點。資料處理器 (DPU) 可導入軟體定義的網路硬體加速運算,包括預先設定的資料處理引擎和可程控引擎。
若要實現運算、網路和儲存空間的 IO 最佳化,使用者需要先進遙測技術和深度疑難排解技術。Magnum IO 管理平台讓研究和產業資料中心運算子能夠有效率地佈建、監控、管理和預防性維護現代資料中心的網狀架構。
採用技術
採用 NVIDIA CUDA-X 高效能運算 (HPC) 與人工智慧 (AI) 函式庫的 Magnum IO 介面,可加速從人工智慧到科學視覺化等多種使用案例的 IO。
資料科學與機器學習 (ML) 現在已成為全球最大的運算領域。適度改善預測機器學習模型的準確度可帶來數十億美元的利潤。為了提升精確度,RAPIDS™ 加速器函式庫搭載以可設定的 UCX 為基礎的內建加速 Apache Spark 隨機功能,進而運用 GPU 到 GPU 通訊和 RDMA 功能。NVIDIA 資料中心平台具有獨特定位,可與 NVIDIA 網路、Magnum IO 軟體、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™ 搭配使用,進而以前所未有的效能和效率水準加速這些龐大工作負載。
Adobe 可將 Databricks 上 Spark 3.0 模型訓練的速度提升 7 倍,節省 90% 的成本
為了促進新一代的發現,科學家仰賴模擬來進一步瞭解藥物開發的複雜分子、透過物理來尋找新能源,以及瞭解大氣資料以更準確預測天氣規律。Magnum IO 展現硬體級的加速引擎和智慧卸載技術,如 RDMA、GPUDirect 以及 NVIDIA 可擴充的分層彙總和精簡通訊協定 (SHARP) 功能,同時支援每秒 400GB 的高頻寬和超低延遲 NVIDIA Quantum 2 InfiniBand 網路。
有了多租戶技術,使用者應用程式可能不會注意到鄰近應用程式流量的無差別干擾。在最新 NVIDIA Quantum 2 InfiniBand 平台上的 Magnum IO 提供經過改善的新功能,可以降低對使用者效能的負面影響。這可展現最佳結果,並在任何規模發揮最有效率的高效能運算 (HPC) 與機器學習部署成果。
最大型的互動式立體視覺化:150 TB NASA 火星探測器模擬
人工智慧模型的複雜度,隨著處理難度更高的挑戰將持續增長,如對話式人工智慧和深度推薦系統等。像 NVIDIA Megatron-BERT 這樣的對話式人工智慧模型,與 ResNet-50 等影像分類模型相比,需要耗費多 3000 倍的運算效能來訓練。為了讓研究人員能夠繼續挑戰人工智慧的能力極限,會需要強大的效能和巨大的擴充能力。每秒 200 GB 的 HDR InfiniBand 網路與 Magnum IO 軟體堆疊的結合,可在單一叢集中提供數千個 GPU 的高效率擴充能力。
Facebook 資料中心的深度學習訓練:垂直擴充與水平擴充系統的設計
訂閱已獲得最新消息
NVIDIA 隱私權政策
協助 IO 直接傳輸到 GPU 記憶體,從 CPU/系統記憶體中移除代價高昂的資料路徑瓶頸。透過獨立性更高的運作方式,避免通過系統記憶體的額外複製所造成的額外延遲負荷,降低對傳輸的影響,並打破 CPU 使用率瓶頸。
深入瞭解 ›
閱讀部落格文章:GPUDirect Storage: 儲存裝置和 GPU 記憶體之間的直接路徑
觀看線上研討會:NVIDIA GPUDirect 儲存空間:加速通往 GPU 的資料路徑
以符合邏輯的方式呈現網路儲存空間,如將 NVMe over Fabrics (NVMe-oF) 作為本機 NVMe 磁碟,讓主機作業系統/虛擬機器可以使用標準 NVMe 驅動程式,而非遠端網路儲存空間協定。
一組函式庫和最佳化 NIC 驅動程式,可在使用者空間中快速處理資料包,為高速網路應用程式提供框架和常用 API。
提供網路轉換器的存取權限,可直接在對等式裝置中讀取或寫入記憶體資料緩衝區。讓 RDMA 的應用程式可以使用對等式裝置運算功能,而不需要透過主機記憶體複製資料。
開放原始碼和生產級的通訊框架,適用於以資料為中心的高效能應用程式。包含低階介面,可展現基礎硬體支援的基本網路作業。套件包含:MPI 與 SHMEM 函式庫、整合通訊 X (UCX)、NVIDIA SHARP、KNEM 和標準 MPI 基準。
透過通訊處理器之間緊密的同步,提供拓撲感知通訊基元。
提供以 OpenSHMEM 標準為基礎的平行程式介面,為跨多個伺服器的多 GPU 記憶體資料建立全域位址空間。
閱讀部落格:使用 NCCL 加速 NVSHMEM 2.0 Team-Based Collectives
開放原始碼和生產級的通訊框架,適用於以資料為中心的高效能應用程式。包含低階介面,可展現基礎硬體支援的基本網路作業。此外還包含一個高階介面,可用於建構 MPI、OpenSHMEM、PGAS、Spark 以及其他高效能和深度學習應用程式中的協定。
此功能集加速 switch 和 packet processing。ASAP2 將資料傳輸和安全性由 CPU 轉移至網路中以增進效率、可控制性,並可將惡意的應用程式隔離開來。
NVIDIA® BlueField® DPU 從 CPU 中卸載關鍵的網路、安全性和儲存空間工作,是解決效能、網路效率和現代資料中心網路安全問題的最佳解決方案。
減少 MPI 通訊時間,並改善運算與通訊之間的重疊。由 NVIDIA Mellanox InfiniBand 轉換器所採用,將主機的 MPI 訊息處理卸載至網卡,實現 MPI 訊息零複製。
將這些演算法從 GPU 或 CPU 卸載到網路切換元素,並消除在端點間多次傳送資料的需求,進而提升資料縮減和彙總演算法的效能,如 MPI、SHMEM、NCCL 等。SHARP 整合將 NCCL 效能增加 4 倍,並在 MPI 集體延遲方面展現 7 倍的效能提升。
實現網路協調、佈建、設定管理、作業管理、網狀架構運作狀況的深入能見度、流量使用率和乙太網路解決方案管理。
可在 InfiniBand 的資料中心進行網狀架構的偵錯、監控、管理和有效資源調配。支援採用人工智慧網路智慧和分析的即時網路遙測技術。