產生合成資料

加速人工智慧工作流程。

工作負載

電腦視覺/影像分析

產業別

製造業
Hardware/Semiconductor
汽車 / 運輸
智慧城市/空間
機器人技術

業務目標

創新

 

產品

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

何謂合成資料?

在訓練任何人工智慧模型時,都需要使用經過仔細標記的高品質和多樣化資料集,才能達到所需的準確度和效能。在許多情況下,資料是有限、受限或不可用的。要收集和標記這些實際資料,不僅耗時,又可能需花費高昂成本,減慢實體人工智慧模型的開發速度與找尋解決方案的時間。

合成資料有助解決這項挑戰,這些資料是由電腦模擬、生成式人工智慧模型或兩者結合而生成的。合成資料可由視覺和非視覺光譜中的文字、2D 或 3D 圖像組成,且這些圖像可以與實際資料結合使用,訓練多模態實體人工智慧模型。可節省大量的訓練時間,並大幅降低成本。

Synthetic data

為什麼要使用合成資料?

增強 AI 模型訓練

克服資料缺口,加速人工智慧模型開發流程,同時降低用以訓練文字、視覺和實體人工智慧模型所需資料的整理成本。

隱私與安全

透過生成不同的合成資料集來代表真實世界,能解決隱私問題並減少偏誤。

精準度

使用多樣化資料訓練來建立高準確度且通用的人工智慧模型,這些資料包括原先難以收集、罕見但重要的邊角案例。

高擴充

使用自動化流程資料,按程序化的方式生成資料,這些資料可依製造業、汽車、機器人技術等領域的使用案例進行擴充。

生成合成資料

合成資料可以各種方式生成,並取決於使用案例。

使用模擬方法  

如果要訓練倉庫機器人的電腦視覺人工智慧模型,則需要使用拖板車和儲物架等物件來建立出符合實體情況的虛擬場景。或是在生產線上訓練視覺檢查人工智慧模型,則需要使用輸送帶和生產線上的產品等物件建立虛擬場景。

開發合成資料流程的關鍵挑戰之一,是縮小從模擬到現實之間的差距。域隨機化可透過控制場景的物件位置、材質和光線等各方面來縮小差距。

NVIDIA Omniverse™ Cloud Sensor RTX 微服務能以無縫方式模擬感測器,並生成已完成標註的合成資料。或者,您也可以開始使用 Omniverse Replicator SDK,開發自訂 SDG 流程。

使用生成式人工智慧

生成式模型可用於啟動和增強合成資料生成流程。文字轉 3D 模型支援建立 3D 素材以移入 3D 模擬場景。文字轉圖像生成式人工智慧模型也可用於修改和增強現有圖像,無論是從模擬生成,還是透過程序化的方式進行影像修復或影像擴展在現實世界中收集。

文字轉文字的生成式人工智慧模型,如 Evian 2 405B 和 Nemotron-4 340B,可用於生成合成資料,為醫療、金融、網路安全、零售和電信業領域打造強大的 LLM。

Evian 2 405B 和 Nemotron-4 340B 提供開放式授權,讓開發人員有權在學術和企業應用中擁有和使用生成的資料。

機器人模擬

在機器人技術領域中,合成資料可用於訓練人工智慧模型,這些模型已部署用於機器人感知、操控或抓取功能,或部署在用於視覺檢查的機器人。

快速連結

圖片提供:Techman Robot

工業檢測

要能偵測出製造零件的缺陷是非常困難的事,因為異常情況通常很細微或罕見,而且可能差異性很大。因此,我們可以根據實際缺陷 (如刮痕、碎裂或凹痕等) 建立合成資料,再用來訓練人工智慧模型,即可在製造過程中盡早偵測出缺陷。

 

Image courtesy of Delta Electronics

快速連結

影像來源:Edge Impulse

自駕車

若要部署可安全導航周邊環境的自駕車,則需要大量訓練資料,而在現實生活中實作訓練的成本非常高昂且具危險性。合成資料可用於在模擬環境中開發和測試自駕車解決方案,可減少測試和訓練時間,並降低成本。

金融服務

合成資料支援進行複雜的風險建模和詐騙偵測,同時可保護敏感的財務資料。若是要開發進行風險評估、演算法交易和客戶支援的進階人工智慧模型,則必須使用合成資料技術。

 

檢索增強生成 (Retrieval-Augmented Generation, RAG)

各行各業的組織紛紛開始採用生成式人工智慧來改善顧客體驗並提升營運效率。為了確保模型能夠提供最新且可靠的回應,則必須在人工智慧工作流程中實作 RAG 流程。合成資料生成可協助企業評估 RAG 實作的品質。

合成資料合作夥伴生態系統

瞭解我們的生態系統如何運用 NVIDIA 技術來發展自己的合成資料應用和服務。

合成資料公司

服務供應合作夥伴

立即開始

運用 Omniverse Cloud API 或 SDK 建立自己的合成資料生成流程,並用於機器人模擬、工業檢測和自駕車。

相關資源

合成資料訓練

參加這門可自訂進度的課程,瞭解如何生成合成資料來訓練電腦視覺模型。

合成資料文件

請查閱 Omniverse Replicator 文件,即可開始生成合成資料。

合成資料生成大型語言模型 (LLM) 訓練

深入瞭解 Llama 3.1 405BNemotron-4 340B 開放式模型,開發人員可運用這些模型生成合成資料,為企業應用訓練 LLM。

合成資料生成的播放清單

觀看 NVIDIA GTC 合成資料生成的相關演講,瞭解更多資訊。