Die projizierte Leistung kann Änderungen unterliegen. Token-to-Token-Latenz (TTL) = 50 ms in Echtzeit, erste Token-Latenz (FTL) = 5 s, Eingabesequenzlänge = 32.768, Ausgabesequenzlänge = 1.028, 8x Acht-Wege-DGX H100-GPUs mit Luftkühlung vs. 1x Acht-Wege-DGX B200 mit Luftkühlung, pro GPU-Leistungsvergleich.