語音人工智慧

為對話式人工智慧應用提供語音介面。

什麼是語音人工智慧?

語音人工智慧讓人與裝置、機器和電腦透過語音交談,創造更簡便豐富的生活。語音人工智慧是對話式人工智慧的一環,包括自動語音辨識 (ASR) 和文字轉語音 (TTS),可將語音轉換成文字,並從文字生成擬人化的聲音,實現虛擬助理、即時轉錄與大型語言模型 (LLM) 驅動的語音搜尋,以及檢索增強生成 (RAG) 這類強大的應用。

使用語音人工智慧的優勢

世界級準確度

世界級精確度

透過語音人工智慧模型客製化實現一流準確度,將客戶體驗提升至非凡境界。

多語言支援

多語言支援

提供使用客戶慣用語言的語音應用程式擴大客群。

高效能且可擴充

效能與擴充性

以低延遲、高輸送量的應用程式服務更多客戶,而且無論是在本機、雲端、邊緣或嵌入式基礎架構,這些應用程式皆可立即擴充。

為品牌打造的獨特自然語音

獨特自然的聲音

利用品牌獨特的語音,實現快速且富意義的互動,大幅提升客戶服務品質。

免費電子書:打造語音人工智慧應用程式

瞭解如何建立及部署即時語音人工智慧管道,供對話式人工智慧使用。

2024 年 GTC 大會

揭開語音人工智慧神祕面紗

瞭解語音人工智慧技術,例如自動語音辨識和文字轉語音,如何自動處理現今成千上百萬次的對話互動。

語音與生成式人工智慧開發人員日

瞭解如何在 LLM 與 RAG 應用使用語音與人工智慧翻譯,讓聊天機器人搖身一變為強大的多語虛擬助理和虛擬替身。

利用語音人工智慧徹底改變多語多媒體

瞭解如何利用 NVIDIA® Riva 語音辨識、文字轉語音與翻譯,增加特定語言的字幕與配音。

語音人工智慧應用

Multi-Speaker Transcription

一次轉錄多位講者逐字稿

新式語音轉文字演算法可以不同語言轉錄會議、課程和日常對話逐字稿,同時辨識說話者,並標註對方發言的內容。透過 NVIDIA 語音與翻譯人工智慧技術和 SDK,您可為客服中心對話和視訊會議精準轉錄逐字稿,也可以在醫師與病患互動時,自動生成臨床筆記。

Virtual Assistant Applications

打造超級智慧的虛擬助理

多語言虛擬助理經由語音介面與用戶溝通,能協助執行多種工作,例如解答客服中心的問題、作為智慧家庭助理控制電視,以及作為車內智慧助理導航至最近的加油站。以 LLM 和 RAG 為基礎打造超級智慧虛擬助理與聊天機器人,或是利用 NVIDIA Avatar Cloud Engine (ACE) 將 NVIDIA 語音與翻譯人工智慧整合至虛擬替身應用,以多種語言交流互動。

NVIDIA Custom Voice

打造您的品牌語音

透過專屬的品牌語音,企業能開發多語言應用,讓客戶用熟悉的語言互動,並支持包括語言和語音障礙在內的所有客戶群體。利用 NVIDIA 語音與翻譯人工智慧提供的 NVIDIA Custom Voice,您只需錄製 30 分鐘的語音數據,即可在數小時內為品牌設計出獨特且高品質的語音個性,並支援您所選的語言。

開發可客製化的語音人工智慧介面

利用預先訓練模型縮短訓練時間

全新語音人工智慧系統採用透過大型資料集訓練的深度神經網路 (DNN) 模型。語音人工智慧模型規模越來越大,即使是在高效能 GPU 使用 PyTorch、TensorFlow 和 MXNet 這類深度學習架構訓練這些模型,也可能需要數週密集的運算時間。

NVIDIA 語音與翻譯人工智慧在 NVIDIA NGC™ 目錄中,提供達正式作業品質的預先訓練模型,是在 NVIDIA DGX™ 系統利用多種公開和專有資料集經過數十萬小時訓練的結晶。

語音人工智慧預先訓練模型

圖 1:高準確度的多語預先訓練模型。

TAO 端對端工作流程

圖 2:端對端 NVIDIA NeMo 工作流程。

客製化模型,提高準確度

許多企業必須客製化語音與翻譯人工智慧模型,特定對話應用才能達到理想的多語準確度。然而,從頭開始客製化語音人工智慧模型,通常需要大量訓練資料集與人工智慧專業知識。

為了加速開發及靈活客製化語音模型,您可以使用 NVIDIA NeMo™ 建立、客製化及部署自動語音辨識 (ASR) 與文字轉語音 (TTS) 等語音技術,以及自然語言處理 (NLP) 管道。您可利用 NeMo 功能客製化、延伸及組合現有的預先建置語音人工智慧模組,創造出全新的模型。透過內部部署或雲端的 NVIDIA® Riva,您可將經過 NeMo 最佳化的模型當成語音服務匯出及部署。

開發即時技術,實現自然互動

挑選語音人工智慧時,企業一向必須在準確度與即時效能之間做出抉擇。舉例來說,企業無法接受在提問後延遲數秒的回覆。此外,企業也不希望對話式人工智慧應用程式曲解語意或產生無意義的內容。

企業利用 NVIDIA Riva 可實現世界級準確度,在幾毫秒內就能即時執行語音和翻譯人工智慧管道。Riva 在 NGC 提供 SOTA 預先訓練模型,透過 NVIDIA NeMo 即可微調,實現世界級準確度,以及最佳化的即時處理能力。

NVIDIA Riva 語音人工智慧技術功能

圖 3:NVIDIA Riva 語音人工智慧技術功能。

探索語音人工智慧的最新劃時代突破

多語語音人工智慧

語音人工智慧跨越語言障礙

語音人工智慧應用程式和流程,必須瞭解多種語言、方言和口音,才能在世界各地部署。舉例來說,美國和其他多數國家使用的語言不同。在客服中心這類使用案例,有時客戶會使用多種語言描述當下情況。下一步是讓語音人工智慧應用程式能夠處理這些狀況。

開發人員可針對每種語言使用個別的語音模型,也可以使用能夠處理多種語言的單一模型。請在語音辨識集合頁面,深入瞭解不同語言的 ASR 模型。

語音人工智慧從雲端轉移到裝置

將語音人工智慧從雲端轉移到裝置

企業最初使用語音人工智慧時,雲端服務因為易於設定且容易上手,因此備受青睞。後來企業逐漸開始改用內部部署的解決方案,以免資料發生隱私問題。如今,終端裝置解決方案是最新的劃時代突破,不僅能讓資料兼顧隱私,還能加快推論速度並降低成本。

NVIDIA Riva 可讓應用程式部署於嵌入式資料中心和雲端環境,為對話式人工智慧應用開發可客製化的語音人工智慧介面。

開始使用語音人工智慧

獲得語音人工智慧工作流程

開始使用語音人工智慧工作流程

利用 NVIDIA 人工智慧架構、預先訓練的模型,以及諸如 Helm Chart、Jupyter Notebook 等資源組成的封裝人工智慧工作流程,加速開發時間,幫助您快速展開建置人工智慧解決方案的工作。

開始使用容器與模型開發

開始使用容器與模型開發

雖然大規模部署必須購買 NVIDIA Riva,但 NVIDIA 也提供了各種免費容器、模型與客製化工具。

取得教育資源

取得語音人工智慧簡介

瞭解語音人工智慧的核心概念,以及如何打造及部署語音技術應用程式。

揭開語音人工智慧的神祕面紗

瞭解自動語音辨識 (ASR) 和文字轉語音 (TTS) 等語音人工智慧技術,如何自動處理現今數百萬次的對話。

瀏覽語音人工智慧部落格

瞭解何謂語音人工智慧及其演進過程、關鍵元件、難題與使用案例,以及 NVIDIA 語音人工智慧 SDK。

深入瞭解 NVIDIA Riva

瞭解 NVIDIA Riva 有助於打造語音人工智慧服務的關鍵功能。

訂閱即可收到 NVIDIA 語音人工智慧的最新消息。

Select Location
Middle East