Inferência LLM e eficiência energética: TTL = 50 milissegundos (ms) em tempo real, FTL = 5s, 32.000 entradas/1.000 saídas, NVIDIA HGX™ H100 escalonado sobre InfiniBand (IB) vs. GB200 NVL72, treinamento 1,8T MOE HGX H100 escalonado sobre IB vs. GB200 NVL72 dimensionado sobre IB. Tamanho do cluster: 30.000
Consulta TPC-H 4: GB200 vs. Intel Xeon 8480+
Desempenho projetado sujeito a alterações.