スピーチと翻訳の AI
大規模言語モデルと検索拡張生成をベースとするアプリケーション向けに、完全にカスタマイズ可能な多言語スピーチ/翻訳 AI を構築し、デプロイします。
動画 | ソリューション概要 | 開発者向け
NVIDIA®Riva は、完全にカスタマイズ可能なリアルタイムの対話型 AI パイプラインを構築するための、GPU 対応の多言語スピーチ/翻訳マイクロサービス セットです。スピーチRiva には、自動音声認識 (ASR)、音声合成 (TTS)、ニューラル機械翻訳 (NMT) が含まれ、あらゆるクラウド、データ センター、エッジ、埋め込みデバイスにデプロイできます。Riva を導入すると、大規模言語モデル (LLM) と検索拡張生成 (RAG) を利用できるスピーチ/翻訳インターフェイスを追加し、表現力豊かで人をひきつける多言語アシスタントやアバターにチャットボットを変えることができます。
最先端の多言語文字起こし、翻訳、音声機能を備えた AI チャットボットを提供します。
多言語の文字起こしと翻訳の精度が高く、表現力豊かでプロフェッショナルな女声/男声を面倒な設定なしで利用できます。最新式の学習済みモデルは、NVIDIA スーパーコンピューターを利用し、数千時間分のオーディオをベースにトレーニングされています。
さまざまな言語、アクセント、ドメイン、語彙、コンテキストを対象に、ユース ケースに合わせて可能な限り高い精度で ASR パイプラインを隈なくカスタマイズし、ブランドとして求められる声/イントネーションに合わせて TTS パイプラインを隅々までカスタマイズします。
>無数のユーザーが同時に使用しても全員に変わらない使用感を与え、推論パフォーマンスが既存のテクノロジよりも優れています。また、データ センター、オンプレミス、クラウド、エッジ、組み込みデバイスなど、どこにでもデプロイできます。
安全性と安定性に優れたエンタープライズグレードの生成 AI 向けのエンドツーエンド クラウドネイティブ ソフトウェア プラットフォームである NVIDIA AI Enterprise は、本番環境における多言語音声対応の AI アプリケーションの開発とデプロイを加速します。
音声および翻訳 AI 向けに最適化された AI 推論を提供するように設計された、新しい ASR、TTS、NMT マイクロサービスを体験してください。これには、レコーディング設定の ASR 精度とパフォーマンスを提供する Parakeet モデルが含まれます。
Riva でイノベーションを推進する業界のリーダーたちの手法をご覧ください。
企業は、数百万人の顧客や従業員からの問い合わせに 24 時間対応するために Q&A アシスタントをデプロイしています。Riva のスピーチ/翻訳 AI マイクロサービスを活用することで、周囲の雑音、音質の悪さ、多様な話者の方言やアクセントに関係なく、アシスタントは会話のあらゆる場面で有用かつ自然な応答を返します。
利用者は、コンタクト センターの担当者が利用者の直面する問題を迅速かつ効率的に解決することを期待しています。その期待に応え、可能な限り最高の顧客体験とエージェント体験を届けるため、さまざまな業界に属する企業が Riva スピーチ/翻訳 AI を動力とするエージェントアシスト テクノロジを導入しています。
顧客サービス体験を強化し、顧客と強く結びつくために、企業は「それと分かる」ブランド ボイスを持つアバターを開発しています。Riva をご利用いただくと、わずか 3 秒の音声データで、独自にパーソナライズされた高品質の音声を作成できます。
毎日数億件のオンライン会議が開催されている現況において、ビデオ会議は企業にとって不可欠なツールになっています。Riva のリアルタイムの文字起こし機能を活用することで、ビデオ会議アプリケーションはライブ キャプションや会議の要約において優れた精度を実現し、世界各国のアクセントやさまざまな専門用語を使用するユーザーに対応しています。
グローバル経済が発展するなか、企業は国を超えて事業を展開し、さまざまな言語や文化を持つ顧客にサービスを提供しています。しかしながら、ネイティブ スピーカーを採用したり、複数の言語に対応できるように従業員をトレーニングしたりすることは、スケーラブルでも効率的もなく、また費用対効果も悪いため、このグローバル言語における多様性は特有の課題を発生させています。Riva の翻訳は、正確で効果的なコミュニケーションに力を与え、グローバルな交流を促進します。
世界中の病院、空港、小売店では、サービス ロボットを活用する機会が増えています。サービス ロボットは、レストランや製造施設では毎日繰り返される作業を行うことで現場の作業者を支援し、店舗では商品を探す顧客を支援し、患者ケアの現場では医師や看護師を支援します。Riva をご利用いただくと、サービス ロボットにスピーチと翻訳 AI を簡単に追加することができます。
適切なツールとテクノロジを使用し、完全にカスタマイズ可能な多言語スピーチ/翻訳 AI アプリケーションを構築し、デプロイします。
UI ベースのポータルで Riva をご体験ください。NVIDIA の API カタログから無料でご利用いただけます。NVIDIA が管理するエンドポイントで試用/試作できます。
NVIDIA LaunchPad から無料で、NVIDIA がホストするインフラストラクチャとガイド付きのハンズオン ラボをご利用いただけます。ステップバイステップの手順と例が含まれています。
無料ライセンスで NVIDIA AI Enterprise をお試しください。既存のインフラを利用し、90 日間、本番環境でお試しいただけます。
顧客: T-Mobile
製品: NVIDIA Riva, NVIDIA-Certified Systems
テクノロジ: NVIDIA Data Center GPU、NVIDIA NeMo、NVIDIA Riva
顧客: RingCentral
製品: NVIDIA DGX, NVIDIA Riva
テクノロジ: NVIDIA Data Center GPU、NVIDIA NeMo、NVIDIA Riva、NVIDIA Triton Inference Server
顧客: Tarteel.ai
テクノロジ: NVIDIA NeMo, NVIDIA Riva, NVIDIA Data Center GPUs
スピーチ AI プロジェクトを既に始めていますか? スピーチ スキル搭載の対話ベース ソリューションを実際にお試しください (試作も可能です)。高性能の Riva ソフトウェア スタックをすぐにでもデプロイできます。
機能をカスタマイズした NVIDIA Riva で GPU 対応の ASR サービスを構築、トレーニング、微調整、デプロイする方法を学びます。
AI エキスパートの仲間入りしよう。この講座では、LLM ベースのアプリケーションに加えて、本番環境用の多言語スピーチ/翻訳 AI を構築、ファインチューン、デプロイする方法がわかり、顧客に自然言語で話しかけるチャットボットが作れるようになります。
インテリジェントな仮想アシスタント、音声文字起こしサービス、デジタル アバターなど、世界レベルのスピーチ AI アプリケーション (完全にカスタマイズ可能) を構築できます。
Riva は、顧客との会話の正確な記録をリアル タイムで生成することで、AI が状況に応じたインサイトを提供し、感情を測定し、担当者に次善の行動を推奨できるようにします。
インターネット接続なしで軽食を注文。スピーチ AI 搭載の Spot が街の中を移動する様子をご覧ください。音声コマンドをクラウドにアップロードし、サーバーで処理するのではなく、Spot はすべてローカルで処理し、シームレスかつ効率的に配達します。
最新のドキュメント、チュートリアル、テクニカル ブログなど、NVIDIA Riva で開発を始めるために必要なすべてをご覧いただけます。
セキュリティ、安定した API、NVIDIA AI Enterprise サポートを活用して、パイロット環境から本番環境へ移行する方法について、NVIDIA の製品スペシャリストがお答えします。
2021 年、AI2Labs はシンガポールのローカル テクノロジ スタートアップとして Yoozoo Games から独立しました。 AI2Labs は、AI 製品とアプリケーションを革新、実験、開発を行い、効率的なプロセスを可能にし、持続可能性とビジネス成果を向上させます。
AI2Labs は、Riva を Speakr (ドメイン固有のスピーチ AI) 音声認識 API に統合して、複雑なアジアの音声およびビジネス ドメインに対応し、最先端のシングリッシュ翻訳精度を実現しました。
Avaya はクラウド通信およびワークストリーム コラボレーション ソリューションを専門とし、ユニファイド コミュニケーション、コンタクト センター、サービスとしての通信プラットフォーム (CPaaS)、および OneCloud プラットフォームを使用したサービスを提供しています。
Avaya は、大規模なリアルタイム キャプションのために NVIDIA Riva 文字起こしエンジンを統合しました。 Riva を使用すると、文字起こしの品質が向上し、単語エラー率が低下し、経済的効率の高い配信が可能になります。
インドのプネにある C-DAC の Applied AI グループは、10 年以上にわたり音声テクノロジの研究開発に注力してきました。同グループは、ヒンディ語やマラーティー語などのインド言語向けの最先端の文字起こし (STT) システムの作成に成功しました。このグループは、AI 対応のオープンソースのディープラーニング フレームワーク、ライブラリ、STT および他のインド言語や低リソース言語向けの音声対応アプリケーションを作成するためのツールを探索することで、研究を進め続けています。実験は、NVIDIA のオープンソース NeMo フレームワークのさまざまなニューラル ネットワーク アーキテクチャとトポロジを使用して実施され、Citrinet および Conformer-CTC ネットワーク トポロジが音声認識用のニューラル音響モデルの構築とトレーニングに効果的であることが証明されました。これらのモデルはシングルノードおよびマルチノードの Param Siddhi AI システムでトレーニングされ、トレーニング時間とパフォーマンスが最適化されました。最後に、Riva GPU アクセラレーションのプロダクション パイプラインを使用して、モデルをリアルタイムおよびバッチモード推論用にデプロイしました。
Singtel Group の子会社である NCS は、アジア太平洋地域に拠点を置く大手テクノロジ サービス企業であり、政府や企業と提携してテクノロジを通じてコミュニティを発展させています。 NCS は、61 の専門分野にわたる 12,000 人の強力なチームの経験と専門知識を組み合わせて、デジタル、データ、クラウド、プラットフォームの NEXT 機能に加え、アプリケーション、インフラストラクチャ、エンジニアリング、サイバーセキュリティのコア製品を使用して、差別化されたエンドツーエンドのテクノロジ サービスをクライアントに提供します。NCS はまた、オープン イノベーションと共創をサポートするために、主要なテクノロジ企業、研究機関、スタートアップと強力なパートナー エコシステムの構築を確信しています。
NCS は、ドライバーのコンパニオン アプリである Breeze で NVIDIA Riva TTS を使用して、音声ガイド ナビゲーション、ライブの交通状況と道路状況の更新、リアルタイムの駐車料金、および電子道路料金レートや営業時間を提供し、シンガポールのドライバーがスムーズな運転を体験できるようにしています。
breeze.com.sg/
www.ncs.co
お客様の事例
RingCentral は、グローバルなエンタープライズ クラウド コミュニケーション、コラボレーション、コンタクト センター ソリューションの大手プロバイダーであり、何百万ものユーザーにサービスを提供しています。 RingCentral プラットフォームは、あらゆる場所やデバイスからのコラボレーションを可能にし、ビジネス効率と顧客満足度を向上します。
RingCentral は、プラットフォーム上の 200,000 人の同時ユーザーのビデオ会議の文字起こしに NVIDIA Riva を使用しています。
www.ringcentral.com
GTC セッション
Snap は、フィルターやエフェクトを使用したマルチメディア メッセージの作成を可能にするカメラおよびソーシャル メディアの会社です。よりインタラクティブな体験を作成するために、Snapchat ユーザーはレンズ (スナップにリアルタイム効果を追加する機能) を 1 日に 60 億回以上使用しています。
NVIDIA Riva のノイズと言語に最適化されたスピーチ AI サービスは、Snap AR Lens Studio に統合されており、クリエイター (アーティストや開発者) が魅力的な拡張現実 (AR) 体験を構築できるようになります。
T-Mobile は、先進的な 4G LTE と革新的な 5G ネットワークを提供し、最高の顧客体験を実現します。コンタクト センターのエージェントを強化するために、T-Mobile は Expert Assist を導入しています。この AI ベースのソフトウェアは、NVIDIA Riva を使用してリアルタイムの顧客との会話を書き起こし、レコメンダーに供給して何千人ものエージェントを支援します。
Riva を使用することで、T-Mobile はカスタム データセットに基づいて自動音声認識モデルをファインチューニングし、騒がしい環境でも顧客の専門用語を正確に解釈します。
www.t-mobile.com
お客様のご質問にお答えし、組織のニーズにお応えします。
NVIDIA プライバシー ポリシー