GPU アクセラレーションAI プラットフォーム NVIDIA Maxineにより、ビデオ会議プロバイダーはストリーミング品質を大幅に向上させ、超解像度、視線補正、ライブキャプションなどのAI機能を提供
2020 年 10 月 5 日、カリフォルニア州サンタクララ — GTC — NVIDIA は本日、開発者がクラウドベースのGPU アクセラレーション AI ビデオ会議ソフトウェア スイートによって、インターネットで最も多いトラフィックの発生元であるストリーミング ビデオを強化する NVIDIA Maxine プラットフォームを発表しました。
NVIDIA Maxine は、クラウドネイティブのストリーミング ビデオ用 AI プラットフォームです。これにより、サービスプロバイダーは、AI を活用した新たな機能を、毎日 推定3,000 万以上行われているウェブ会議に実装させることができます。クラウドで NVIDIA GPU をベースにしたプラットフォームを使用しているビデオ会議のサービスプロバイダーは、視線補正、超解像度、ノイズ キャンセリング、顔の再照明といった、AI の新しい効果をユーザーに提供できるようになります。
データはローカルのデバイスではなく、クラウドで処理されるため、エンドユーザーは、特殊なハードウェアなしで新しい機能が利用できます。
NVIDIA のアクセラレーテッド コンピューティング担当ゼネラルマネージャー兼バイスプレジデントであるイアン バック (Ian Buck) は、次のように述べています。「ビデオ会議は、現代では毎日の生活の一部になっており、数百万の人々が仕事をしたり、学んだり、遊んだりできるようになっているほか、医師の診断も受けられるようになっています。NVIDIA Maxine は、NVIDIA の最新のビデオ、音声および対話型 AI の機能を統合させたもので、例を見ない効率性と新機能を、私たち全員が普段接続しているプラットフォームにもたらしてくれます」
AI の効率性のブレイクスルーによって帯域幅を減らしながら、通信品質を向上
Maxine プラットフォームは、ビデオ通信に必要な帯域幅を大幅に削減します。画面すべてのピクセルをストリーミングする代わりに、AI ソフトウェアが、会議中の各人の顔の重要なポイントを分析し、相手側のビデオでその顔をインテリジェントに再度動きを付けます。これにより、インターネットでやりとりされるデータの量を減らしながらビデオをストリーミングすることが可能になります。
NVIDIA GPU を活用した、AI ベースの新しい動画圧縮テクノロジにより、開発者は、最大でH.264 ストリーミング ビデオ圧縮規格の要件の 10 分の 1 に帯域幅の使用量を削減することができます。これによって、プロバイダーの費用が削減され、エンドユーザーにより滑らかなビデオ会議体験を提供することができ、コンピューターやタブレット、携帯電話でのデータ ストリーミング量が少なくなるため、AI を活用したサービスをより多く楽しめるようにもなります。
AI 機能がビデオ会議の体験を向上
Maxine を含む、NVIDIA の研究者による新しいブレイクスルーにより、ビデオ会議でも対面して会話しているような感覚を得られるようになります。ビデオ会議サービスのプロバイダーは、敵対的生成ネットワークとも呼ばれている、GAN についての NVIDIA の研究を活用して、さまざまな新機能を提供できるようになります。
たとえば、顔の位置調整によって、通信中に相手と正面から向き合っているように自動的に調整が行われ、視線補正によって、カメラがユーザーの画面に向いていない場合でも、アイコンタクトがシミュレーションされます。今年の初めから、ビデオ会議は 10 倍の増加を見せており、このような機能によって、人々はカメラを気にすることなく、会話に集中できるようになります。
開発者は、通信のすべての参加者が、それぞれの声と感情的なトーンに基づいて、リアルタイムで、自動的に生成される本物のようなアニメーションで自身を描写したアバターを選択できるようにする機能を追加することもできます。また、自動フレームを選択すれば、話者がスクリーンから離れている場合でも、その話者の話に応じて動画がフィードされるようになります。
NVIDIA Jarvis SDK による対話型 AI 機能を使うことで、開発者は最新の AI 言語モデルを使った音声認識、言語理解および音声生成を行う、仮想アシスタントを組み込むことができます。この仮想アシスタントは、発言の記録やアクション アイテムの設定、人間のような声での質問への回答ができます。翻訳やクローズドキャプション、文字起こしといった、追加の対話型 AI のサービスにより、参加者は通信での会話内容を理解することができます。
クラウドネイティブのアーキテクチャにより、費用の節約と大規模な AI 活用が可能に
特定の時間帯におけるビデオ会議対する需要は予測が困難で、数百人どころか、数千人が同じ通信に参加しようとする可能性もあります。NVIDIA Maxine は、NVIDIA GPU を活用した Kubernetes コンテナ クラスタで作動する AI マイクロサービスを利用することで、開発者はリアルタイムでの需要に応じてサービスを拡張することができます。ユーザーは、アプリケーションのレイテンシ要件を楽々とクリアしながら、複数の AI 機能を同時に実行することができます。
ビデオ会議サービスのプロバイダーは、Maxine を使い、クラウドの NVIDIA GPU で AI 推論ワークロードを実行することで、数十万人のユーザーに先進の AI 機能を提供できるようになります。また、Maxine プラットフォームのモジュラー設計により開発者は、AI の機能を選択して、それらを自身のビデオ会議ソリューションに組み入れることが簡単にできます。
NVIDIA AI 開発者ツールが勢揃い
Maxine プラットフォームには、いくつもの NVIDIA AI SDK および API のテクノロジが組み込まれています。NVIDIA Jarvis に加えて、Maxine プラットフォームでは、高スループットの音声およびビデオ ストリーミングの SDK であるNVIDIA DeepStream と高性能なディープラーニング推論を実現するNVIDIA TensorRT™ SDK が活用されています。
Maxine プラットフォームで使用されている NVIDIA SDK より提供される、AI による音声、ビデオおよび自然言語処理は、トレーニング、推論およびデータサイエンスのワークロードのための世界屈指のプラットフォームである NVIDIA DGX™ システムでの数十万時間のトレーニングを経て開発されました。
発売予定
音声およびビデオのアプリとサービスを制作している、コンピューター ビジョン AI の開発者、ソフトウェア パートナーおよびコンピューター メーカーは、NVIDIA Maxine プラットフォームのアーリーアクセス申請が可能です。
その他のリソース
動画: Maxine Streaming Video AI SDK demo
動画: NVIDIA Research AI Video Compression demo
ブログ: AI Can See Clearly Now: GANs Take the Jitters Out of Video Calls
ブログ: NVIDIA Jarvis and Merlin Enter Open Beta, Enabling Conversational AI and Democratizing Recommenders
ブログ: Generative Adversarial Network とは―トップ研究者が解説
※NVIDIA Jarvis の名称は 2021 年 7 月に NVIDIA Riva に変更されました。
NVIDIA について
1999 年における NVIDIA (NASDAQ 表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックスを再定義し、並列コンピューティングに革命的変化を起こしました。最近では、GPU ディープラーニングが最新の AI (次世代コンピューティング) に火をつけ、世界を知覚し理解することができるコンピューター、ロボット、自律走行車の脳として GPU は機能しています。詳細は、こちらのリンクから: www.nvidia.com/ja-jp/