Rendimiento previsto sujeto a cambios. Latencia de token a token (TTL) = 50 ms en tiempo real, latencia de primer token (FTL) = 5 s, longitud de secuencia de entrada = 32 768, longitud de secuencia de salida = 1028, 8 GPU DGX H100 de ocho vías refrigeradas por aire frente a 1 GPU DGX B200 de ocho vías refrigeradas por aire, por comparación de rendimiento de GPU.