利用 GPU 的強大功能,輕鬆加速資料科學、機器學習和人工智慧工作流程。
透過高速 GPU 運算與平行資料載入、資料操作和機器學習,執行完整的資料科學工作流程,將端對端資料科學流程加快 50 倍。
資料科學與機器學習現在已成為全球最大的運算領域。適度改善分析模型準確度可帶來數十億元的利潤。為了打造出最佳模型,資料科學家努力進行訓練、評估、迭代和重新訓練,以獲得高度準確的成果和高效能模型。有了 RAPIDS™,原本要耗費數天的流程只需幾分鐘就能完成,讓建立和部署可產生價值的模型變得更輕鬆快速。
工作流程包含多次迭代,將原始資料轉換成訓練資料,以匯入多種演算法組合,並經過超參數調整以找出正確的模型、模型參數和資料功能組合,進而獲得最佳準確度和效能。
RAPIDS 是一系列開放原始碼軟體函式庫和 API,可在 GPU 上執行完整的資料科學流程,並將訓練時間從數天縮短為幾分鐘。RAPIDS 採用 NVIDIA® CUDA-X AI™ 打造,結合繪圖運算、機器學習、深度學習、高效能運算 (HPC) 等領域多年來的開發成果。
資料科學的重點在於取得成果的速度。RAPIDS 實際運用 NVIDIA CUDA® 的效能,透過在 GPU 上執行完整的資料科學訓練流程,加速整體工作流程。將部署模型的訓練時間和頻率從數天縮短為幾分鐘。
透過隱藏 GPU 協作以及資料中心價購幕後通訊協定作業的複雜性,RAPIDS 創造了一種完成資料科學的簡易方法。由於有更多資料科學家使用 Python 和其他高階語言,因此對於快速改善開發時間來說,無需修改程式碼即可加速這一點非常重要。
不論在雲端或本機,隨處皆可執行 RAPIDS。輕鬆地從工作站擴充至多 GPU 伺服器,甚至是到多節點叢集,還能使用 Dask、Spark、MLFlow 和 Kubernetes 在生產環境中部署。
對於藉由資料科學獲取關鍵洞察的組織而言,獲得可靠支持至關重要。 NVIDIA AI Enterprise 為一個端到端的 AI 軟體套件,提供全球 NVIDIA 企業支持,包括有保證回覆時間、優先安全通知、定期更新以及 NVIDIA AI 專家詢問等支援。
結果顯示 GPU 可為小規模和大規模的巨量資料分析問題節省大量的成本和時間。RAPIDS 在 10 TB 的規模中,使用 Pandas 與 Dask 等常用 API 在 GPU 上執行的速度可以比頂尖的 CPU 基準快 20 倍。NVIDIA 的解決方案只採用 16 個 NVIDIA DGX A100 即可達到 350 個 CPU 伺服器的效能,更同時提供 HPC 級效能,成本效益多出 7 倍以上。
常見的資料處理作業有許多步驟 (資料流程),而 Hadoop 沒有辦法以高效率處理。Apache Spark 將所有資料都保存在系統記憶體來解決這個問題,讓資料流程可以變得更有彈性且更複雜,但同時也帶來了新的瓶頸。在具有數百個 CPU 節點的 Spark 叢集上分析幾百 GB 的資料即使不需要數天,也需要花費數小時。為了發揮資料科學的真正潛力,資料中心設計必須以 GPU 為中心,且包含以下五種要素:運算、網路、儲存空間、部署和軟體。一般來說,在 GPU 上進行端對端資料科學工作流程的速度比在 CPU 上快 10 倍。
與 RAPIDS 整合的 Plotly Dash 即使在單一 GPU 上,也可以支援多 GB 資料集的即時互動式視覺化分析。
適用於 Apache Spark 的 RAPIDS 加速器 為 Apache Spark 提供一系列外掛程式,可運用 GPU 加速 RAPIDS 和 UCX 軟體的處理。
RAPIDS 依靠 CUDA 基元進行低階的運算最佳化,但透過方便使用的 Python 介面展現出 GPU 平行處理和高記憶體頻寬。RAPIDS 支援端對端資料科學工作流程,包括資料載入與前置處理、機器學習、圖形分析及視覺化。這是一款功能完備的 Python 堆疊,能擴展至企業的大型資料使用案例。
RAPIDS 的資料載入、前置處理和 ETL 功能以 Apache Arrow 打造,可用於載入、加入、收集、篩選,或操作資料,而且全都是在科學家常用的類 Pandas API 中執行。使用者可預期獲得比一般快 10 倍以上的速度。
RAPIDS 的機器學習演算法和數學基元遵循常用的類 scikit-learn API。單一 GPU 和大型資料中心部署都支援 XGBoost、隨機森林等熱門工具。對於大型資料集而言,這些 GPU 實作與 CPU 同級相比,能以快 10 到 50 倍的速度完成作業。
RAPIDS 的圖表演算法 (如 PageRank) 和功能 (如 NetworkX) 可以有效運用 GPU 的大量平行計算技術,將大型圖表的分析加快超過 1000 倍。在單一 NVIDIA A100 Tensor 核心 GPU 上探索多達 2 億個邊緣端,並在 NVIDIA DGX™ A100 的叢集上擴充到數十億個邊緣端。
RAPIDS 的視覺化功能支援 GPU 加速的交叉篩選。此功能啟發自 JavaScript 的原始版本,能為超過 1 億行的表格式資料集提供超高速的互動式多維度篩選功能。
雖然深度學習在電腦視覺、自然語言處理和推薦系統等領域中都很有效,但在某些領域中,使用深度學習並非主流。表格式資料問題由類別和連續變數的欄位所組成,通常會使用 XGBoost、梯度提升法或線性模型等技術。RAPIDS 可簡化 GPU 上表格式資料的前置處理,並將資料直接流暢地移交給支援 DLPack 的任何框架,如 PyTorch、TensorFlow 和 MxNet。這些整合開啟了全新的機會,讓我們創造豐富的工作流程,其中更包括之前無法達成的工作流程,像是將深度學習框架建立的新功能輸入到機器學習演算法。
要在企業中建立人工智慧最佳化的資料中心須具備 5 個關鍵因素。設計的關鍵是要以 GPU 為中心。
採用 NVIDIA GPU 的系統具備極高的運算效能,是打造人工智慧資料中心的核心基石。NVIDIA DGX 系統提供突破性的人工智慧效能,且平均可取代 50 個雙插槽的 CPU 伺服器。要為資料科學家提供業界最強大的工具以進行資料探索,就從這一步開始。
透過隱藏在資料中心架構中使用 GPU 和幕後通訊協定作業的複雜性,RAPIDS 創造了一種完成資料科學的簡易方法。由於有更多資料科學家使用 Python 和其他高階語言,因此對於快速改善開發時間來說,無需修改程式碼即可加速這一點非常重要。
在 NVIDIA Mellanox® 網路介面控制器 (NIC)、NCCL2 (NVIDIA 集合通訊函式庫) 和 OpenUCX (開放原始碼點對點通訊框架) 中的遠端直接記憶體存取 (RDMA) 大幅改善了訓練速度。RDMA 允許 GPU 以每秒高達 100 GB (Gb/秒) 直接跨節點與彼此通訊,讓它們的涵蓋範圍可跨多個節點,就像在一台龐大的伺服器上一起運作。
企業正轉而使用 Kubernetes 和 Docker 容器來部署大規模流程。透過結合容器化應用程式與 Kubernetes,企業可以改變最重要任務的優先順序,並為人工智慧資料中心帶來彈性、可靠性和可擴充性。
GPUDirect® 儲存空間讓 NVMe 和 NVMe over Fabric (NVMe-oF) 可以繞過 CPU 和系統記憶體,直接讀取資料並將其寫入 GPU。這可以釋放出 CPU 和系統記憶體供其他作業使用,同時讓每個 GPU 都能以提升多達 50% 的頻寬存取更大數量級的資料。
NVIDIA 致力於為開放原始碼社群簡化、整合與加速資料科學。NVIDIA 透過最佳化整個堆疊 (從硬體到軟體),並消弭迭代資料科學的瓶頸,讓全球各地的資料科學家都能以更少的資源執行更多作業。這讓企業最珍貴的資源:資料和資料科學家,發揮更多價值。Apache 2.0 開放原始碼軟體 RAPIDS 彙集了 GPU 上的生態系。