Inferencia de LLM Llama3: latencia de token a token (TTL) = 50 milisegundos (ms) en tiempo real, latencia del primer token (FTL) = 2 s, longitud de la secuencia de entrada = 2048, longitud de la secuencia de salida = salida de 128, 8 NVIDIA HGX™ H100 refrigeradas por aire frente a GB200 NVL2 refrigeradas por aire de un solo nodo, comparación de rendimiento por GPU
Rendimiento de búsqueda de bases de datos vectoriales dentro de la canalización RAG utilizando memoria compartida por CPU NVIDIA Grace y GPU Blackwell. 1x x86, 1 GPU H100 y 1x GPU del nodo GB200 NVL2.
Procesamiento de datos: una carga de trabajo de agregación y unión a bases de datos con compresión Snappy/Deflate derivada de la consulta TPC-H Q4. Implementaciones de consulta personalizadas para una sola GPU x86, H100 y una sola GPU del nodo GB200 NLV2: GB200 frente a Intel Xeon 8480+
Rendimiento previsto sujeto a cambios.