為對話式人工智慧應用提供語音介面。
語音人工智慧讓人與裝置、機器和電腦透過語音交談,創造更簡便豐富的生活。語音人工智慧是對話式人工智慧的一環,包括自動語音辨識 (ASR) 和文字轉語音 (TTS),可將語音轉換成文字,並從文字生成擬人化的聲音,實現虛擬助理、即時轉錄與大型語言模型 (LLM) 驅動的語音搜尋,以及檢索增強生成 (RAG) 這類強大的應用。
透過語音人工智慧模型客製化實現一流準確度,將客戶體驗提升至非凡境界。
提供使用客戶慣用語言的語音應用程式擴大客群。
以低延遲、高輸送量的應用程式服務更多客戶,而且無論是在本機、雲端、邊緣或嵌入式基礎架構,這些應用程式皆可立即擴充。
利用品牌獨特的語音,實現快速且富意義的互動,大幅提升客戶服務品質。
瞭解如何建立及部署即時語音人工智慧管道,供對話式人工智慧使用。
全新語音人工智慧系統採用透過大型資料集訓練的深度神經網路 (DNN) 模型。語音人工智慧模型規模越來越大,即使是在高效能 GPU 使用 PyTorch、TensorFlow 和 MXNet 這類深度學習架構訓練這些模型,也可能需要數週密集的運算時間。
NVIDIA 語音與翻譯人工智慧在 NVIDIA NGC™ 目錄中,提供達正式作業品質的預先訓練模型,是在 NVIDIA DGX™ 系統利用多種公開和專有資料集經過數十萬小時訓練的結晶。
圖 1:高準確度的多語預先訓練模型。
圖 2:端對端 NVIDIA NeMo 工作流程。
許多企業必須客製化語音與翻譯人工智慧模型,特定對話應用才能達到理想的多語準確度。然而,從頭開始客製化語音人工智慧模型,通常需要大量訓練資料集與人工智慧專業知識。
為了加速開發及靈活客製化語音模型,您可以使用 NVIDIA NeMo™ 建立、客製化及部署自動語音辨識 (ASR) 與文字轉語音 (TTS) 等語音技術,以及自然語言處理 (NLP) 管道。您可利用 NeMo 功能客製化、延伸及組合現有的預先建置語音人工智慧模組,創造出全新的模型。透過內部部署或雲端的 NVIDIA® Riva,您可將經過 NeMo 最佳化的模型當成語音服務匯出及部署。
挑選語音人工智慧時,企業一向必須在準確度與即時效能之間做出抉擇。舉例來說,企業無法接受在提問後延遲數秒的回覆。此外,企業也不希望對話式人工智慧應用程式曲解語意或產生無意義的內容。
企業利用 NVIDIA Riva 可實現世界級準確度,在幾毫秒內就能即時執行語音和翻譯人工智慧管道。Riva 在 NGC 提供 SOTA 預先訓練模型,透過 NVIDIA NeMo 即可微調,實現世界級準確度,以及最佳化的即時處理能力。
圖 3:NVIDIA Riva 語音人工智慧技術功能。
利用 NVIDIA 人工智慧架構、預先訓練的模型,以及諸如 Helm Chart、Jupyter Notebook 等資源組成的封裝人工智慧工作流程,加速開發時間,幫助您快速展開建置人工智慧解決方案的工作。
雖然大規模部署必須購買 NVIDIA Riva,但 NVIDIA 也提供了各種免費容器、模型與客製化工具。
訂閱即可收到 NVIDIA 語音人工智慧的最新消息。