搭載生成式人工智慧技術的視覺人工智慧代理人

探索一系列運用視覺語言模型的參考工作流程，這些工作流程可為各行各業提供豐富的互動式視覺感知功能。

工作負載

電腦視覺 / 影像分析

產業別

零售 / 消費性民生用品
製造業
智慧城市 / 空間
醫療照護與生命科學

業務目標

投資報酬率
創新

產品

NVIDIA Metropolis
NVIDIA AI Enterprise

概覽
技術執行

推動新一波應用

傳統的影像分析應用和其開發工作流程通常建立於固定功能的有限模型，這些模型設計僅可偵測和辨識一組特定的預先定義物件。透過生成式 AI 和基礎模型，您可以以更少的模型來開發應用，而這些模型將具備極複雜且廣泛的感知功能和豐富的情境理解能力。新一代的視覺語言模型 (Vision Language Model, VLM)，正在催生智慧且強大的視覺人工智慧代理人。

何謂視覺人工智慧代理人？

視覺人工智慧代理人可結合視覺和語言模態，理解自然語言提示，並執行視覺問答。例如，用自然語言回答各類型的問題，並可將回答應用於錄製或直播影片串流。深入瞭解影片內容，生成更加準確且有意義的判讀，提升影片分析應用的功能以及實際情境的解讀能力。這些代理人可望能解鎖全新產業應用的發展前景。

簡化各產業營運模式

高感知、準確的互動式視覺人工智慧代理人將部署在我們的工廠、倉庫、零售商店、機場、交通路口等各處。對於希望運用自然互動產生更加豐富的見解，進而做出更好決策的營運團隊來說，將產生巨大影響。管理者和營運團隊將與自然語言人工智慧的代理人進行交流，這些人工智慧均透過生成式人工智慧和大型視覺語言模型提供支援，核心則採用 NVIDIA NIM™ 微服務。

快速連結

試用視覺人工智慧代理人參考工作流程

GTC 演講：透過視覺人工智慧代理人駕馭生成式人工智慧和大型語言模型

使用 NVIDIA NIM 開發

NVIDIA NIM 是一套推論微服務，包括業界標準的 API、特定領域的程式碼、最佳化推論引擎以及企業執行階段。提供多個用於建置視覺人工智慧代理人的視覺語言模型 (VLM)，可處理即時或封存的影像或影片，並使用自然語言擷取可執行的見解。我們已經打造出視覺人工智慧代理人的參考工作流程，歡迎試用以加速您的開發流程。

快速連結

試用視覺人工智慧代理人參考工作流程

將 NVIDIA VIA 微服務與 NIM 結合運用

NVIDIA VIA 微服務是雲端原生建構區塊，用於加速 VLM 和 NIM 支援的視覺人工智慧代理人開發，包括在邊緣或雲端的部署。其中一個例子是摘要微服務，可用來打造處理大量影片和製作精選摘要的視覺人工智慧代理人。

這些微服務可供下載，並提供更多可協助建立新服務的內容。

快速連結

下載 NVIDIA VIA 微服務

技術部落格：使用 NVIDIA VIA 微服務和 NIM 打造視覺人工智慧代理人

使用 Jetson 平台服務打造邊緣代理人

開發人員可運用 NVIDIA JetPack™ 的新功能 Jetson 平台服務，打造由NVIDIA Jetson™ 邊緣人工智慧平台支援的視覺人工智慧代理人。生成式人工智慧應用會在 NVIDIA Jetson Orin™ 裝置上完整執行，能夠偵測事件、產生警示，並促進互動式問答環節。

快速連結

下載 Jetson™ 的參考工作流程

技術部落格：開發由生成式人工智慧支援的邊緣視覺人工智慧代理人

打造視覺人工智慧代理人

探索由多個視覺語言模型支援的參考工作流程，輕鬆打造出視覺人工智慧代理人。

下載 NVIDIA VIA 微服務

試用 NIM 參考工作流程

Download NVIDIA VIA Microservices Try NIM Reference Workflow