Inférence LLM en temps réel
GB200 embarque des capacités de pointe et un moteur d’inférence qui, grâce à un couplage via la technologie d’interconnexion NVIDIA® NVLink de cinquième génération, offrent des performances d’inférence LLM en temps réel jusqu'à 30 fois plus rapides pour le traitement de modèles de langage comportant plusieurs billions de paramètres. Cette avancée technologique s’appuie sur la génération la plus récente des cœurs Tensor, intégrant le niveau de précision FP4 en microscaling. En outre, le domaine GB200 NVL72 fait appel à la technologie NVLink et à des techniques de refroidissement liquide pour créer un rack unique de 72 GPU capable de réduire les goulets d’étranglement au niveau des communications.