Inferenza ed efficienza energetica LLM: TTL = 50 millisecondi (ms) in tempo reale, FTL = 5 s, 32.768 input/1.024 output, NVIDIA HGX™ H100 in scala su InfiniBand (IB) rispetto a GB200 NVL72, training di 1,8 T MOE 4096x HGX H100 in scala su IB rispetto a 456 x GB200 NVL72 in scala su IB. Dimensioni cluster: 32.768
Carico di lavoro di aggregazione e unione nel database con compressione Snappy/Deflate derivata da query TPC-H Q4. Implementazione di query personalizzate per x86, H100 singola GPU e singola GPU da GB200 NLV72 rispetto a Intel Xeon 8480+
Prestazioni previste soggette a modifica.