Inferenza su Llama3 LLM: latenza token-to-token (TTL) = 50 millisecondi (ms) in tempo reale, latenza primo token (FTL) = 2s, lunghezza sequenza di input = 2.048, lunghezza sequenza di output = 128 output, 8x NVIDIA HGX™ H100 con raffreddamento ad aria vs. GB200 NVL2 a singolo nodo con raffreddamento ad aria, per confronto prestazioni GPU
Prestazioni di ricerca nel database vettorialenei flussi RAG utilizzando la memoria condivisa dalla CPU NVIDIA Grace e dalla GPU Blackwell. 1 x86, 1 GPU H100 e 1 GPU dal nodo GB200 NVL2.
Elaborazione dati: carico di lavoro di aggregazione e unione nel database con compressione Snappy/Deflate derivata da query TPC-H Q4. Implementazione di query personalizzate per x86, H100 singola GPU e singola GPU da nodo GB200 NVL2: GB200 vs. Intel Xeon 8480+
Prestazioni previste soggette a modifica.