探索適用於工作流程、叢集管理以及排程和協調的企業級解決方案。
NVIDIA DGX™-Ready 軟體計畫提供企業級的機器學習作業解決方案,可加速人工智慧工作流程,並改善人工智慧基礎架構的部署、上手容易度和使用率。DGX-Ready 軟體經過測試和認證,可於 DGX 系統上使用,協助將人工智慧平台的投資發揮最大價值。
機器學習作業解決方案涵蓋人工智慧工作流程管理應用程式、叢集管理、流程協調和資源排程,可將人工智慧基礎架構的效率和使用率提升到最高。
瞭解合作夥伴經過認證的軟體解決方案。
Weights & Biases (W&B) 是適合機器學習使用專家的開發人員堆疊。使用他們輕量的互通工具,在機器學習專案的整個生命週期期間進行偵錯和重製。W&B 受到超過 15 萬名機器學習使用專家的信任,這些專家使用 W&B 開發出更好的藥物、更安全的自駕車、更永續的農業和尖端的研究。 Weight & Biases 機器學習作業軟體經過認證,可和 NVIDIA DGX 系統配合使用,而且也適用於 NVIDIA Base Command 平台。
透過 Lablup Backend.AI 和 NVIDIA DGX 系統體驗便利且強大的 AI 開發。 Backend.AI 可以輕鬆充分利用 NVIDIA 加速運算(包括 DGX 系統)的龐大運算能力。
Bright Computing 軟體創造了不同的可能性。快速建立並管理異質高效能叢集,託管從核心到邊緣端和雲端的高效能運算、機器學習與分析應用程式。
ClearML 在 DGX 系統上提供管理和協調堆疊。ClearML 可以協助團隊更輕鬆地管理工作負載、提升資料和模型的能見度與控制力,並進行有效協作。
透過 ClearML Orchestrate,團隊可以運用一個或多個 NVIDIA DGX A100 系統,為遠端虛擬開發環境建立虛擬叢集,並支援可擴充的訓練工作負載。
運用 NVIDIA DGX Station™ A100、NVIDIA Clara™ 影像和 ClearML 簡化醫學影像工作流程 (解決方案簡介)
Shakudo 的 Hyperplane 平台是機器學習團隊的端對端環境。Hyperplane 將最佳開放原始碼工具和框架結合,成為經過預先設定及調整的單一平台,主要目的是為開發人員提供最佳使用體驗。Shakudo 提供單一使用者介面和持續進化的多框架、多基礎架構後端,符合業界盛行的機器學習堆疊。在 NVIDIA DGX 系統上啟動和執行 Hyperplane 非常簡單,這項系統完全支援 RAPIDS™、NVIDIA Triton™ 推論伺服器、NVIDIA 多執行個體 GPU (MIG) 和其他強大的 NVIDIA 技術。Hyperplane 支援機器學習的整個生命週期,包含開發和實驗、擴充和部署模型,與擷取、轉換和載入 (ETL) 作業、實驗追蹤、監控,以及生產工作負載的即時疑難排解。
Domino 資料科學平台將整個企業的資料科學工作與基礎架構集中化,以便更快速且更有效率地協同建構、訓練、部署和管理模型。Domino 讓資料科學家可以更快速地創新、讓團隊可以重新利用工作成果及進行更多協作,並且讓 IT 團隊可以管理和控制基礎架構。
Lockheed Martin 如何運用資料科學突破火箭科學的極限 (隨選線上研討會)
Determined 是一個開放原始碼深度學習訓練平台,能更快速且輕鬆地建構模型。Determined 所提供的優勢:
Iguazio 資料科學平台將人工智慧專案轉化為實際業務成果。利用機器學習作業和機器學習流程的端對端自動化,加速並擴充人工智慧應用程式的開發、部署和管理。
Paperspace Gradient 能加速並擴充開發與部署可用於實際生產環境的機器學習和深度學習模型。此平台使用業界第一款全方位的持續整合與持續部署 (CI/CD) 引擎執行,可用於建構、訓練和部署深度學習模型。Paperspace 的一流機器學習工具和方法,能為現今的現代企業支援多雲端、本機和混合式環境。同時也適用於 NVIDIA NGC,且針對 NVIDIA DGX 最佳化。
Red Hat OpenShift 是一款具有強大可能性的混合式雲端平台,可讓您打造任何內容,且靈活度高,隨處都可以使用。
因為 OpenShift 是 DGX-Ready 軟體計畫的一部分,客戶可以使用經過 NVIDIA DGX 叢集上的 OpenShift 認證,通過實證和測試的企業級軟體解決方案。如此一來,便能協助簡化人工智慧基礎架構的部署、管理和調整,而生態系合作夥伴也可以利用 OpenShift,以更具可擴充性與重複性的方式,為客戶開發並提供解決方案。
Pachyderm 提供資料層,使機器學習 (ML) 團隊能夠大量生產和擴展其機器學習生命週期。Pachyderm 領先業界的資料版本已通過認證可與 NVIDIA DGX ™ 系統搭配使用,能夠實現工作流程和團隊的資料導向自動化、PB 級可擴展性和端對端重現性。使用 Pachyderm 的團隊可以更快速並用更低的資料處理和儲存成本來將 ML 專案上市,並能輕鬆符合和規標準。
D2iQ Kaptain 是一個企業就緒的端到端機器學習 (ML) 平台,由 Kubeflow 支援,透過打破 ML 原型和生產之間的障礙,加快上市時間和正投資回報率。D2iQ Kaptain 使組織能夠在混合和雲端環境中大規模開發和部署 ML 工作負載。
D2iQ Konvoy 是完整版本的 Kubernetes,可使採用 Kubernetes 的公司享有輕鬆且立即可用的企業級體驗。Konvoy 是由純上游開放原始碼軟體,以及為混合式和雲端環境大規模篩選、整合和測試量產所需的附加元件所構建而成。
D2iQ Kubernetes 平台和 NVIDIA DGX 系統 (解決方案簡介)
Run:AI 打造了全球第一款可編排和加速人工智慧的運算管理平台。Run:AI 將 GPU 運算資源集中和虛擬化,藉以提供能見度,並控制資源的優先順序和分配,同時簡化工作流程,為資料科學家省去基礎架構帶來的麻煩。如此一來,便能確保人工智慧專案與業務目標對應,並大幅提升資料科學團隊的生產力,讓他們可以在資源不受限制的情況下建構並訓練同步模型。
打造最佳人工智慧基礎架構堆疊以加速資料科學 (隨選線上研討會)
Canonical 的 Ubuntu 是 NVIDIA DGX、NVIDIA EGX™、NVIDIA NGC™ 容器等的最佳化平台,能讓資料科學家和工程師提高創新生產力。Canonical Kubernetes 以最佳化的 Ubuntu 影像為基礎,並為任何運算環境提供無與倫比的整合和作業。
此外,為了製定 AI 解決方案並擴展項目,可以將端對端 MLOps 平台 Canonical Kubeflow 添加到堆疊中並在 NVIDIA DGX 系統上運行。
解決方案概要:Charmed Kubernetes Delivered on NVIDIA DGX Systems Solution Brief
解決方案概要: Charmed Kubeflow Delivered on NVIDIA DGX Systems
白皮書: Build Your Performant ML Stack with NVIDIA DGX and Kubeflow
IBM Spectrum® LSF® 套件組合是適用於高需求分散式運算環境的完整工作負載管理解決方案,可協助提升使用者生產力和硬體使用率,同時降低管理成本。LSF 套件支援典型的高效能運算 (HPC)、巨量資料、GPU、機器學習 (ML) 和人工智慧,以及位於本機和雲端的容器化工作負載。運用動態混合式雲端擴增和智慧資料暫存,可讓組織只支付使用的成本,進而能夠控制成本。
使用採用 NVIDIA DGX 系統的 IBM Spectrum
SchedMD 是 Slurm 的核心開發人員和服務供應商,為雲端和本機叢集提供支援、諮詢、設定、開發和訓練服務。 Slurm 是領先業界的開放原始碼工作負載管理工具,專為最複雜且嚴苛的高效能運算、高輸送量運算 (HTC) 和人工智慧系統而設計。Slurm 可將工作負載輸送量和可靠性提升到最高,同時最佳化雲端和本機叢集的消耗和管理工作負載。
Slurm 為 NVIDIA GPU 提供關鍵排程技術:
使用 Slurm 和 NVIDIA DGX 系統加速高效能和人工智慧工作負載
從資料中心到雲端再到邊緣,SUSE 的 Rancher Kubernetes 管理解決方案提供了完整的堆疊,可降低管理多個容器叢集的操作和安全挑戰。透過 Rancher,您可以在 Kubernetes 環境中快速整合並利用最佳的 NVIDIA 軟體和基礎架構,使開發人員能夠專注於 AI 任務。
NVIDIA DGX Testing and Deployment Guide
Rancher Kubernetes 管理解決方案
基礎 Kubernetes 和 Rancher 培訓
Altair 的旗艦級工作負載管理和工作排程解決方案 Altair® PBS Professional® 已針對 GPU 環境中的效能最佳化,其中包括 NVIDIA DGX 系統。PBS Professional 支援在多節點 DGX 叢集上排程大型人工智慧和高效能運算 (HPC) 工作負載,以及使用多執行個體 GPU (MIG) 的個別 GPU 工作負載。
適用於 NVIDIA DGX 系統的 Altair PBS 專業支援
NVIDIA 隱私權政策