ジェネレーティブ AI 搭載ビジュアル AI エージェント

視覚言語モデルを使用して、多様な産業に向けたインタラクティブな視覚認識機能を提供するリファレンス ワークフローのコレクションをご覧ください。

ワークロード

コンピューター ビジョン / ビデオ解析

業種

小売 / 消費財パッケージ商品
製造
スマート シティ/スペース
ヘルスケアとライフ サイエンス

事業目標

投資収益率
イノベーション

製品

NVIDIA Metropolis
NVIDIA AI Enterprise

アプリケーションの新時代を切り拓く

従来のビデオ分析アプリケーションとその開発ワークフローは、通常、固定された機能と限定的なモデルに基づいて構築されています。これらは、事前に定義された特定のオブジェクトのみを検出し識別するように設計されています。ジェネレーティブ AI と基盤モデルが登場したことで、より少ないモデルを使用して、非常に複雑で広範な認識能力と豊かなコンテキスト理解能力を兼ね備えたアプリケーションを構築できるようになりました。この新世代のビジョン言語モデル (VLM) は、スマートで強力なビジュアル AI エージェントを生み出しています。

ビジュアル AI エージェントとは?

ビジュアル AI エージェントは、視覚形式と言語形式の両方を組み合わせることで自然言語のプロンプトを理解するため、視覚的な質問に答えることができます。例えば、録画済みまたはライブのビデオ ストリームに対して、自然言語で幅広い質問に答えることができます。このビデオ コンテンツの深い理解により、より正確で意味のある解釈が可能になり、ビデオ分析アプリケーションの機能性や実世界のシナリオの解釈が向上します。これらのエージェントは、全く新しい産業アプリケーションの可能性を開く潜在力を秘めています。

あらゆる産業のオペレーションを効率化

高度な知覚能力、正確性、インタラクティブ性を持つビジュアル AI エージェントは、工場、倉庫、小売店、空港、交差点など、様々な場所にデプロイされていくことが容易に予想されます。これは、より豊かな洞察を自然な対話から得て、より良い意思決定を行おうとするオペレーションチームに大きな影響を与えるでしょう。管理者やオペレーションチームは、これらのエージェントと自然言語でコミュニケーションを取ることができます。これらはすべて、 NVIDIA NIM™ マイクロサービスを中核とするジェネレーティブ AI と大規模視覚言語モデルによって実現されます。

NVIDIA NIM で開発

NVIDIA NIM は、業界標準の API、ドメイン固有のコード、最適化された推論エンジン、およびエンタープライズ ランタイムを含む推論マイクロサービスのセットです。NIM は、ライブまたはアーカイブされた画像や動画を処理し、自然言語を使用して実用的な洞察を抽出できるビジュアル AI エージェントを構築するための複数の VLM (ビジュアル言語モデル) を提供します。開発プロセスを高速化するために試すことができる、ビジュアル AI エージェントのリファレンスワークフローを作成しました。

NIM における NVIDIA VIA マイクロサービスの活用

NVIDIA VIA マイクロサービスは、エッジやクラウドにデプロイされる VLM と NIM を活用したビジュアル AI エージェントの開発を加速するためのクラウドネイティブな構成要素です。一例としては、大量の動画を処理し、厳選された要約を生成するビジュアル AI エージェントを構築するために使用される要約マイクロサービスなどがあります。

これらのマイクロサービスはダウンロード 可能で、新しいサービスを構築するのに役立つ追加のサービスも提供される予定です。

Jetson Platform Services でエッジエージェントを構築する

開発者は、NVIDIA JetPack™ の新機能である Jetson Platform Services を使用して、NVIDIA Jetson™ エッジ AI プラットフォームを搭載したビジュアル AI エージェントを構築できます。ジェネレーティブ AI アプリケーションは、 NVIDIA Jetson Orin™ デバイス上で完全に動作し、イベントを検出してアラートを生成し、対話型の Q&A セッションを促進することができます。

ビジュアル AI エージェントの構築

複数のビジュアル言語モデルを活用したリファレンス ワークフローを使用して、簡単にビジュアル AI エージェントを構築できます。