Llama3 LLM-Inferenz: Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) Echtzeit, First-Token-Latenz (FTL) = 2s, Eingabesequenzlänge = 2,048, Ausgabesequenzlänge = 128 Output, 8x NVIDIA HGX™ H100 Air gekühlt vs. GB200 NVL2, luftgekühlter Einzelknoten, pro–Grafikkarten-Leistungsvergleich
Suchleistung in Vektordatenbankeninnerhalb der RAG-Pipeline unter Verwendung des Speichers, der von der NVIDIA-Grace-CPU und der Blackwell-GPU gemeinsam genutzt wird. 1x x86, 1x H100-Grafikkarte und 1x Grafikkarte von GB200 NVL2-Knoten. Datenverarbeitung: Ein Datenbank-Join- und -Aggregation-Workload mit Snappy/Deflate-Komprimierung, abgeleitet von einer TPC-HQ4-Abfrage. Benutzerdefinierte Abfrageimplementierungen für x86, H100 mit einer einzelnen Grafikkarte und für eine einzelne Grafikkarte aus GB200 NLV72 vs. Intel Xeon 8480+
Die projizierte Leistung kann Änderungen unterliegen.