Rendimiento proyectado sujeto a cambios. Latencia de token a token (TTL) = 50 ms en tiempo real, latencia del primer token (FTL) = 5 s, longitud de la secuencia de entrada = 32 768, longitud de la secuencia de salida = 1028, 8 GPU DGX H100 de ocho vías refrigeradas por aire frente a 1 GPU de ocho vías modo DGX B200 refrigerado por aire, según comparación de rendimiento de GPU.