Prestazioni previste soggette a modifica. Latenza token-to-token (TTL) = 50 ms in tempo reale, latenza primo token (FTL) = 5 s, lunghezza sequenza di input = 32.768, lunghezza sequenza di output = 1.028, 8 GPU DGX H100 a otto vie con raffreddamento ad aria vs. 1 GPU DGX B200 a otto vie con raffreddamento ad aria, per il confronto delle prestazioni della GPU.