Inférence Llama3 avec LLM : latence jeton-à-jeton (TTL) = 50 millisecondes (ms) en temps réel ; latence du premier jeton (FTL) = 2 s ; longueur de séquence d’entrée = 2048, longueur de séquence de sortie = 128 ; 8x GPU NVIDIA HGX™ H100 à refroidissement par air vs GB200 NVL2 à refroidissement par air sur un seul nœud. Comparaison des performances par GPU.
Performances de recherche dans des bases de données vectorielles avec un pipeline de RAG faisant appel à de la mémoire partagée par un CPU NVIDIA Grace et un GPU Blackwell. 1x CPU x86, 1x GPU H100 et 1x GPU d'un nœud GB200 NVL2.
Traitement des données : charge de travail portant sur des requêtes de jointure et d'agrégation de base de données avec compression Snappy/Deflate dérivées de TPC-H Q4. Implémentation de requêtes personnalisées pour un CPU x86, un GPU unique H100 et un GPU unique d'un nœud GB200 NVL2 ; GB200 vs Intel Xeon 8480+.
Mesures de performance susceptibles d’être modifiées.