視覚言語モデルを使用して、多様な産業に向けたインタラクティブな視覚認識機能を提供するリファレンス ワークフローのコレクションをご覧ください。
ワークロード
コンピューター ビジョン / ビデオ解析
業種
小売 / 消費財パッケージ商品
製造
スマート シティ/スペース
ヘルスケアとライフ サイエンス
事業目標
投資収益率
イノベーション
製品
NVIDIA Metropolis
NVIDIA AI Enterprise
従来のビデオ分析アプリケーションとその開発ワークフローは、通常、固定された機能と限定的なモデルに基づいて構築されています。これらは、事前に定義された特定のオブジェクトのみを検出し識別するように設計されています。生成 AI と基盤モデルが登場したことで、より少ないモデルを使用して、非常に複雑で広範な認識能力と豊かなコンテキスト理解能力を兼ね備えたアプリケーションを構築できるようになりました。この新世代のビジョン言語モデル (VLM) は、スマートで強力なビジュアル AI エージェントを生み出しています。
ビジュアル AI エージェントは、視覚形式と言語形式の両方を組み合わせることで自然言語のプロンプトを理解するため、視覚的な質問に答えることができます。例えば、録画済みまたはライブのビデオ ストリームに対して、自然言語で幅広い質問に答えることができます。このビデオ コンテンツの深い理解により、より正確で意味のある解釈が可能になり、ビデオ分析アプリケーションの機能性や実世界のシナリオの解釈が向上します。これらのエージェントは、全く新しい産業アプリケーションの可能性を開く潜在力を秘めています。
高度な知覚能力、正確性、インタラクティブ性を持つビジュアル AI エージェントは、工場、倉庫、小売店、空港、交差点など、様々な場所にデプロイされていくことが容易に予想されます。これは、より豊かな洞察を自然な対話から得て、より良い意思決定を行おうとするオペレーション チームに大きな影響を与えるでしょう。管理者やオペレーションチームは、これらのエージェントと自然言語でコミュニケーションを取ることができます。これらはすべて、 NVIDIA NIM™ マイクロサービスを中核とする生成 AI と大規模視覚言語モデルによって実現されます。
クイック リンク
複数のビジュアル言語モデルを活用したリファレンス ワークフローを使用して、簡単にビジュアル AI エージェントを構築できます。