対話型 AI アプリケーション向け音声ベース インターフェイスを提供します。
スピーチ AI は、人々とデバイス、機械、コンピューターとの会話を可能にし、日常生活を簡素化、拡張します。対話型 AI のサブセットであるこの AI の自動音声認識 (ASR) と文字起こし (TTS) 機能により、音声をテキストに変換し、文章から人間のような声を生成します。これにより、大規模言語モデル (LLM) や検索拡張生成 (RAG) を用いたバーチャル アシスタントやリアルタイム文字起こし、音声検索などの強力なアプリケーションの実現が可能になります。
スピーチ AI モデルのカスタマイズで実現されるクラス最高の精度で、さらに卓越した顧客体験にアップグレードします。
顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。
オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシ、高スループットのアプリケーションで、より多くの顧客にサービスを提供します。
ブランド独自の音声で、すばやく有意義なエンゲージメントを提供することで、一歩進んだ顧客サービスを実現できます。
対話型 AI アプリケーション向けのリアルタイム スピーチ AI パイプラインの構築と展開方法をご紹介します。
現代のスピーチ AI システムは、大量のデータセットで訓練されたディープ ニューラル ネットワーク (DNN) モデルを使用しています。時間の経過とともにスピーチ AI モデルの規模は非常に大きくなっており、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニング フレームワークを使用しても、大量の計算処理に数週間かかることがあります。
NVIDIA のスピーチ / 翻訳 AI は、NVIDIA DGX™ システム上で数十万時間以上にわたり複数の公開データセットおよび独自データセットで訓練された、NVIDIA NGC™ カタログの訓練済み生産品質モデルを提供します。
図 1: 高精度の事前訓練済み多言語モデル。
図 2: エンドツーエンドの NVIDIA NeMo ワークフロー。
多くの企業は、特定の会話アプリケーションに必要な精度を多言語で実現するために、スピーチ / 翻訳 AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニング データセットと AI の専門知識が必要です。
開発をスピードアップし、高度なカスタマイズを可能にするにあたっては、NVIDIA NeMo™ を活用して自動音声認識 (ASR)、音声読み上げ (TTS)、そして自然言語処理 (NLP) のパイプラインを構築、カスタマイズ、展開することができます。NeMo を使用すると、既存の構築済みのスピーチ AI モジュールをカスタマイズ、拡張、構成して、新しいモデルを作成できます。NeMo で最適化されたモデルは、NVIDIA® Riva オンプレミスまたはクラウドで音声サービスとして簡単にエクスポートおよびデプロイできます。
スピーチ AI スキルについて、これまで企業は、精度を重視するか、リアルタイムのパフォーマンスを重視するかを選択しなければなりませんでした。例えば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。
NVIDIA Riva を使用すると、企業は世界クラスの精度を実現しながら、数ミリ秒以内にリアルタイムでスピーチ / 翻訳 AI パイプラインを実行できます。Riva は NVIDIA NeMo での微調整が可能な最先端の訓練済みモデルを NGC 上で提供しており、世界最高水準の精度とリアルタイム パフォーマンスに向けた最適化スキルを実現します。
図 3: NVIDIA Riva のスピーチ AI スキル機能
NVIDIA AI フレームワークやトレーニング済みのモデル、Helm チャート、Jupyter Notebook、ドキュメントなどのリソースをパッケージ化した AI ワークフローを活用することで、開発時間を短縮して AI ソリューションの構築をスピードアップできます。
大規模な導入には NVIDIA Riva の購入が必要ですが、NVIDIA はまた、様々なコンテナー、モデル、カスタマイズ ツールを無料で提供しています。
登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る