Llama3 LLM 推論:即時的標記對標記延遲 (TTL) = 50 毫秒、第一個標記延遲 (FTL) = 2 秒、輸入序列長度 = 2.048、輸出序列長度 = 1,024 輸出;與單一 GPU 比較:相對於氣冷 NVIDIA HGX™ H100,單節點氣冷 GB200 NVL2 的效能高出 8 倍
運用 NVIDIA Grace CPU 和 Blackwell GPU 共用記憶體,在 RAG 流程中得到的向量資料庫搜尋效能。1 個 x86、1 個 H100 GPU 和 1 個 GB200 NVL2 節點中的 GPU。
資料處理:具有 Snappy/Deflate 壓縮功能 (衍生於 TPC-H Q4 查詢) 的資料庫聯結和彙總工作負載。適用於 x86、H100 單一 GPU 和 GB200 NVL2 節點單一 GPU 的自訂查詢實作:GB200 與Intel Xeon 8480+ 相比
此為預期效能,有可能會變更。