事前トレーニング済みのディープラーニング モデルとソフトウェア ツールの活用によって開発者はJarvisをあらゆる業界に応用可能に、あらゆるクラウドからエッジまで簡単に展開
2021 年 4 月 12 日、カリフォルニア州サンタクララ — GTC — NVIDIA は本日 NVIDIA Jarvis フレームワークの提供を開始したことを発表しました。開発者は、NVIDIA Jarvis フレームワークが提供する最先端のトレーニング済みディープラーニング モデルとソフトウェア ツールを活用し、あらゆる業界と分野に簡単に応用できる対話型 AI サービスを構築することが可能になります。
私たちの生活では、数十億時間分もの電話通話、Web ミーティング、ストリーミング配信による動画コンテンツが毎日生み出されています。こうした中 NVIDIA Jarvisは、高精度な自動音声認識、人間の能力を超えた言語理解、複数言語へのリアルタイム翻訳、新しいテキスト読み上げ機能を提供し、表現力に優れた対話型 AI エージェントの開発を可能にします。
GPU アクセラレーションを活用するエンドツーエンドの音声パイプラインは 100 ミリ秒未満で実行可能であり、聴き取り、理解、応答の生成を人間のまばたきよりも速く処理します。音声パイプラインはクラウド、データ センター、エッジに展開し、瞬時にスケーリングして数百万ユーザーに対応できます。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は、次のように述べています。「対話型 AI は、多くの点で究極の AI と言えます。音声認識、言語理解および音声合成の分野におけるディープラーニングのブレイクスルーにより、優れたクラウド サービスが生み出されています。NVIDIA Jarvis は、そのような最先端の対話型 AI をクラウド以外でも利用できるようにし、お客様があらゆる場所で AI サービスを提供できるようにします」
NVIDIA Jarvis は、これまで実現できなかった新しい言語ベース アプリケーションを可能にし、人間やマシンとの間に質の高いインタラクションを提供します。24 時間、患者をモニタリングすることで医療従事者の厳しい負担を和らげるデジタル ナース、消費者が求めている商品を理解し最適な候補を提案するオンライン アシスタント、国境を越えた質の高い共同作業や母国語でのライブ コンテンツ視聴を可能にするリアルタイム翻訳など、さまざまなサービスの可能性が開かれます。
Jarvis は、異なる言語、発音、環境、専門用語で構成された 10 億ページ以上のテキストおよび60,000 時間分の音声データで、数百万 GPU 時間かけてトレーニングされたさまざまなモデルを使って構築されており、世界最高水準の精度を達成しています。開発者は、NVIDIA TAO と呼ばれるフレームワークを使ってトレーニング、適応、最適化することにより、あらゆるタスク、業界、システムにこれらのモデルを簡単に対応させることが初めて可能になりました。
開発者は、Jarvis のトレーニング済みモデルを NVIDIA の NGC™ カタログから選択し、自社データと Transfer Learning Toolkit を使って ファインチューニングを行い、リアルタイム音声サービスにおけるスループット最大化とレイテンシ最小化のために最適化を実施して、わずか数行のコードで簡単に展開できます。つまり、この過程を通して AI の高度な専門知識は必要ありません。
多岐にわたる業界のサポート
昨年 5 月にJarvis の早期アクセス プログラムが開始されて以来、数千社から参加依頼が寄せられています。米国の大手通信企業 T-Mobile もこうした早期導入ユーザーの 1 社です。AI に注目している T-Mobile では、同社の機械学習製品を自然言語処理によって強化し、リアルタイムにインサイトやレコメンデーションを提供しようとしています。
T-Mobile の製品およびテクノロジ担当バイス プレジデントであるマシュー デイビス (Matthew Davis) 氏は次のように述べています。「T-Mobile のデータでファインチューニングした NVIDIA Jarvis サービスを使い、お客様の問題をリアルタイムで解決する製品を開発中です。自動音声認識ソリューションをいくつか評価した結果、Jarvis にたどり着きました。驚異的な低レイテンシで高品質なモデルを提供してくれる Jarvis があれば、お客様を喜ばせる体験を実現できます」
さらに NVIDIA は、音声対応のアプリ、サービス、デバイスのトレーニングに使えるオープン ソースの音声データ コレクションをスタートアップ企業、研究者、開発者向けに提供する Mozilla Common Voice とも連携しています。60 種類の言語、9,000 時間分にも及ぶ無償提供の音声データを擁する Common Voice は、パブリック ドメインの音声データセットとしては世界最大規模を誇ります。NVIDIA は、これらのデータセットと Jarvis を使用してトレーニング済みモデルを開発し、そのモデルを Mozilla コミュニティに無償で還元しています。
Mozilla のエグゼクティブ ディレクターを務めるマーク サーマン (Mark Surman) 氏は次のように語ります。「Mozilla が立ち上げた Common Voice を通して、現実の人間がそれぞれの言語、アクセント、言葉遣いでどのように喋っているかをマシンに教え込むことができます。NVIDIA と Mozilla には、音声技術を誰もが使えるようなテクノロジにし、インターネットを形作っている人間とその声の多様さを音声技術にも反映させる、という共通のビジョンがあります」
NVIDIA の対話型 AI ツールはこれまで 45,000 回以上ダウンロードされています。これらのツールは主要なソフトウェア ライブラリに対応しており、数多くのパートナーによるテクノロジと組み合わせることができるため、世界中の開発者が革新的で直感的な対話型 AI アプリケーションを生み出すことができます。
YouTuberであり PythonProgramming.net の創設者でもあるハリソン キンズリー (Harrison Kinsley) 氏は次のように述べています。「Jarvis の豊富なトレーニング済みモデルにより、自動音声認識、自然言語処理、テキスト読み上げといった対話型 AI 向けの、真の意味でエンドツーエンドのパイプラインが実現しています。どのモデルも衝撃的なまでに高速で的確に最適化されており、API は開発者にとって使いやすく、対話型 AI のさまざまなタスクに適したサンプルも提供されています」
提供予定
新たに発表された機能は、継続的な NVIDIA Jarvis オープン ベータ プログラムの一環として第 2 四半期に提供開始予定です。開発者の皆様は NGC より今すぐダウンロードしていただけます。詳しい情報についてはこちらをご覧ください。
※NVIDIA Jarvis の名称は 2021 年 7 月に NVIDIA Riva に変更されました。
※Transfer Learning Toolkit の名称は 2021 年 8 月に TAO Toolkit に変更されました。
NVIDIA について
1999年における NVIDIA (NASDAQ表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックス、ハイパフォーマンス コンピューティング、そして人工知能 (AI) を再定義しました。NVIDIA のアクセラレーテッド コンピューティングと AI における先駆的な取り組みは、輸送、ヘルスケア、製造業などの数兆ドル規模の産業を再構築し、その他のさまざまな産業の拡大も加速させています。詳細は、こちらのリンクから: https://nvidianews.nvidia.com/