加速資料運算準備任務的效能,以快速進入管道的下一階段。這使得模型可以更快進行訓練,同時讓資料科學家和工程師能夠專注於至關重要的項目。
GPU 加速的 Apache Spark™
資料分析、機器學習和深度學習流程專用
無需變更程式碼,即可使用 GPU 加速 Apache Spark™ 3 資料科學流程,幫助你加速資料處理和模型訓練,並大幅降低基礎架構成本。
加速資料運算準備任務的效能,以快速進入管道的下一階段。這使得模型可以更快進行訓練,同時讓資料科學家和工程師能夠專注於至關重要的項目。
事半功倍:與 CPU 相比,NVIDIA® GPU 上的 Spark 可以用更少的硬體更快地完成作業,如此一來,企業不僅可節省時間,亦能減少本地或雲端的運營成本。
NVIDIA AI Enterprise,是一個包含 RAPIDS Accelerator 的端到端 AI 軟體平台,可加快從資料準備和處理到大規模模型訓練、模擬和推理的全面性 AI 管道生產速度。
由於許多資料處理工作具備「不易平行」的特性,因此針對 Spark 資料處理需求使用 GPU 架構是理所當然的事,此與使用 GPU 加速人工智慧 DL 工作負載類似。開發人員可掌握 GPU 加速的細節,而且不需變更程式碼即可獲得這些優勢。Spark 3 的三項重大技術進展對於讓 GPU 加速變得淺顯易懂貢獻良多:
NVIDIA CUDA® 是一種革命性的平行運算架構,可支援 NVIDIA GPU 架構上的加速運算作業。NVIDIA 開發的 RAPIDS 是建立在 CUDA 之上的一組開放原始碼函式庫,可以讓你在資料科學流程中使用 GPU 加速功能。
NVIDIA 為 Spark 3 建立了 RAPIDS 加速器,能藉由大幅提高 Spark SQL 與 DataFrame 作業的效能來攔截和加速 ETL 流程。
Spark 3 為 Catalyst 需求最佳化工具提供欄式處理支援,這正是 RAPIDS 加速器為了加速 SQL 與 DataFrame 運算所採用的功能。執行需求計畫時,就可以透過 Spark 叢集中的 GPU 執行這些運算。
NVIDIA 也建立了新的 Spark 隨機實作,將 Spark 處理序之間的資料傳輸作業最佳化。此隨機實作構建在 GPU 加速的通訊函式庫 (包含 UCX、RDMA 和 NCCL) 基礎上。
Spark 3 將 GPU 視為首要資源 接著才是 CPU 和系統記憶體。這讓 Spark 3 可以將 GPU 加速的工作負載直接放在包含必要 GPU 資源的伺服器上,因為這些資源是加速和完成工作所必需。
NVIDIA 工程師也協助開發這項重大的 Spark 增強功能,讓 Spark 應用程式可以透過 Spark 單機版、YARN 和 Kubernetes 叢集中的 GPU 資源啟動。
RAPIDS Accelerator for Apache Spark 可用於 NVIDIA AI Enterprise 中,在經過認證的本地到雲端的認證平台上,包括 Amazon EMR、Google Cloud Dataproc 和 Databricks 等,您可以充分取得企業級支援、安全性和穩定性,實現 Spark 部署的優化效能表現。此外,可享受保證回覆時間、優先安全通知以及來自 NVIDIA 的資料科學專家的專業支援。
你想藉助人工智慧的強大功能發揮巨量資料的價值嗎?請下載我們全新的電子書,《Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI 》,深入瞭解 Apache Spark™ 未來的發展。