語音人工智慧

為對話式人工智慧應用提供語音介面。

優點
使用案例
解決方案
最新突破
資源

優點

優點
使用案例
解決方案
最新突破
資源

什麼是語音人工智慧？

語音人工智慧讓人與裝置、機器和電腦透過語音交談，創造更簡便豐富的生活。語音人工智慧是對話式人工智慧的一環，包括自動語音辨識 (ASR) 和文字轉語音 (TTS)，可將語音轉換成文字，並從文字生成擬人化的聲音，實現虛擬助理、即時轉錄與大型語言模型 (LLM) 驅動的語音搜尋，以及檢索增強生成 (RAG) 這類強大的應用。

使用語音人工智慧的優勢

世界級精確度

透過語音人工智慧模型客製化實現一流準確度，將客戶體驗提升至非凡境界。

多語言支援

提供使用客戶慣用語言的語音應用程式擴大客群。

效能與擴充性

以低延遲、高輸送量的應用程式服務更多客戶，而且無論是在本機、雲端、邊緣或嵌入式基礎架構，這些應用程式皆可立即擴充。

獨特自然的聲音

利用品牌獨特的語音，實現快速且富意義的互動，大幅提升客戶服務品質。

免費電子書：打造語音人工智慧應用程式

瞭解如何建立及部署即時語音人工智慧管道，供對話式人工智慧使用。

下載電子書

2024 年 GTC 大會

揭開語音人工智慧神祕面紗

瞭解語音人工智慧技術，例如自動語音辨識和文字轉語音，如何自動處理現今成千上百萬次的對話互動。

隨選觀看

語音與生成式人工智慧開發人員日

瞭解如何在 LLM 與 RAG 應用使用語音與人工智慧翻譯，讓聊天機器人搖身一變為強大的多語虛擬助理和虛擬替身。

隨選觀看

利用語音人工智慧徹底改變多語多媒體

瞭解如何利用 NVIDIA® Riva 語音辨識、文字轉語音與翻譯，增加特定語言的字幕與配音。

隨選觀看

語音人工智慧應用

一次轉錄多位講者逐字稿

新式語音轉文字演算法可以不同語言轉錄會議、課程和日常對話逐字稿，同時辨識說話者，並標註對方發言的內容。透過 NVIDIA 語音與翻譯人工智慧技術和 SDK，您可為客服中心對話和視訊會議精準轉錄逐字稿，也可以在醫師與病患互動時，自動生成臨床筆記。

NVIDIA Riva：自行打造語音與翻譯人工智慧應用

打造超級智慧的虛擬助理

多語言虛擬助理經由語音介面與用戶溝通，能協助執行多種工作，例如解答客服中心的問題、作為智慧家庭助理控制電視，以及作為車內智慧助理導航至最近的加油站。以 LLM 和 RAG 為基礎打造超級智慧虛擬助理與聊天機器人，或是利用 NVIDIA Avatar Cloud Engine (ACE) 將 NVIDIA 語音與翻譯人工智慧整合至虛擬替身應用，以多種語言交流互動。

利用 RAG 探索人工智慧聊天機器人使用 NVIDIA ACE 開發和部署互動式虛擬替身

打造您的品牌語音

透過專屬的品牌語音，企業能開發多語言應用，讓客戶用熟悉的語言互動，並支持包括語言和語音障礙在內的所有客戶群體。利用 NVIDIA 語音與翻譯人工智慧提供的 NVIDIA Custom Voice，您只需錄製 30 分鐘的語音數據，即可在數小時內為品牌設計出獨特且高品質的語音個性，並支援您所選的語言。

與 Tokkio 專案的 NVIDIA Omniverse ACE 進行專業自然的問答

開發可客製化的語音人工智慧介面

利用預先訓練模型縮短訓練時間

全新語音人工智慧系統採用透過大型資料集訓練的深度神經網路 (DNN) 模型。語音人工智慧模型規模越來越大，即使是在高效能 GPU 使用 PyTorch、TensorFlow 和 MXNet 這類深度學習架構訓練這些模型，也可能需要數週密集的運算時間。

NVIDIA 語音與翻譯人工智慧在 NVIDIA NGC™ 目錄中，提供達正式作業品質的預先訓練模型，是在 NVIDIA DGX™ 系統利用多種公開和專有資料集經過數十萬小時訓練的結晶。

深入瞭解 NVIDIA 預先訓練模型

圖 1：高準確度的多語預先訓練模型。

圖 2：端對端 NVIDIA NeMo 工作流程。

客製化模型，提高準確度

許多企業必須客製化語音與翻譯人工智慧模型，特定對話應用才能達到理想的多語準確度。然而，從頭開始客製化語音人工智慧模型，通常需要大量訓練資料集與人工智慧專業知識。

為了加速開發及靈活客製化語音模型，您可以使用 NVIDIA NeMo™ 建立、客製化及部署自動語音辨識 (ASR) 與文字轉語音 (TTS) 等語音技術，以及自然語言處理 (NLP) 管道。您可利用 NeMo 功能客製化、延伸及組合現有的預先建置語音人工智慧模組，創造出全新的模型。透過內部部署或雲端的 NVIDIA® Riva，您可將經過 NeMo 最佳化的模型當成語音服務匯出及部署。

下載這本電子書，開始使用可客製化的語音人工智慧