Llama3 LLM 推論: トークン間遅延 (TTL) = 50 ミリ秒 (ms) リアルタイム、最初のトークン遅延 (FTL) = 2 秒、入力シーケンス長 = 2.048、出力シーケンス長 = 128 出力、8x NVIDIA HGX™ H100 空冷 vs. GB200 NVL2 空冷シングル ノード、GPU あたりのパフォーマンス比較
NVIDIA Grace CPU と Blackwell GPU が共有するメモリを使用した、RAG パイプライン内のベクトル データベース検索性能。1x x86、1x H100 GPU、および GB200 NVL2 ノードの 1x GPU。
データ処理: TPC-H Q4 クエリから派生した Snappy/Deflate 圧縮によるデータベースの結合および集約ワークロード。GB200 NVL2 ノードからの x86、H100 シングル GU、シングル GPU のカスタム クエリ実装: GB200 vs. Intel Xeon 8480+
予想されるパフォーマンスは変更される可能性があります。