Le moteur derrière les usines d'IA à l'ère du raisonnement de l'IA, désormais en pleine production.
Découvrez les avancées révolutionnaires que l'architecture NVIDIA Blackwell apporte à l'IA générative et au calcul accéléré. Basée sur des générations de technologies NVIDIA, Blackwell inaugure la nouvelle ère de l'IA générative avec des performances, une efficacité et une évolutivité inégalées.
Les GPU basés sur l'architecture Blackwell contiennent 208 milliards de transistors et sont fabriqués à l'aide d'un processus TSMC 4NP personnalisé. Tous les produits Blackwell disposent de deux puces à réticule limité connectées par une interconnexion chip-to-chip de 10 téraoctets par seconde (To/s) dans un seul GPU unifié.
Le moteur de transformation de deuxième génération utilise la technologie Blackwell Tensor Core personnalisée combinée aux innovations NVIDIA TensorRT™-LLM et NeMo™ Framework pour accélérer l'inférence et l'entraînement des grands modèles de langage (LLM) et des modèles Mixture of Experts (MoE). Les cœurs Tensor Blackwell ajoutent de nouvelles précisions, y compris de nouveaux formats de microscalage définis par la communauté, offrant une précision élevée et une facilité de remplacement pour obtenir des précisions plus élevées.
Les cœurs Tensor Blackwell Ultra sont suralimentés avec une accélération de la couche d'attention deux fois plus élevée et 1,5 fois plus de FLOPS de calcul d'IA que les GPU Blackwell. Le moteur de transformateur Blackwell utilise des techniques d'évolution de précision appelées évolution des micro-tenseurs pour optimiser les performances et la précision, permettant ainsi une IA de 4 bits en virgule flottante (FP4). Cela double les performances et la taille des modèles nouvelle génération que la mémoire peut prendre en charge tout en maintenant une précision élevée.
Blackwell inclut NVIDIA Confidential Computing, qui protège les données sensibles et les modèles d'IA contre tout accès non autorisé avec une sécurité matérielle renforcée. Blackwell est le premier GPU compatible TEE-I/O de l'industrie, fournissant également la solution de calcul confidentiel la plus performante avec des hôtes compatibles TEE-I/O et une protection en ligne sur NVIDIA NVLink™. Le calcul confidentiel Blackwell offre des performances de débit presque identiques aux modes non cryptés. Les entreprises peuvent désormais sécuriser même les plus grands modèles de manière performante, en plus de protéger la propriété intellectuelle (IP) de l'IA et de permettre en toute sécurité l'entraînement confidentiel de l'IA, l'inférence et l'apprentissage fédéré.
L'accès à tout le potentiel de l'informatique exascale et des modèles d'IA à plusieurs billions de paramètres dépend du besoin d'une communication rapide et fluide entre tous les GPU d'un même cluster de serveurs. La cinquième génération de l’interface d’interconnexion NVIDIA NVLink peut faire évoluer jusqu’à 576 GPU pour accélérer les modèles d’IA avec des milliards, voire plusieurs milliards de paramètres.
La puce de commutation NVIDIA NVLink offre une bande passante GPU de 130 To/s dans un domaine NVLink de 72 GPU (NVL72) et quatre fois plus d'efficacité en matière de bande passante grâce à la prise en charge du protocole NVIDIA SHARP™ FP8 (Scalable Hierarchical Aggregation and Reduction Protocol). La puce de commutation NVIDIA NVLink prend en charge les clusters au-delà d'un seul serveur grâce à la même interconnexion impressionnante de 1,8 To/s. Les clusters multi-serveurs avec NVLink font évoluer les communications des GPU tout en équilibrant avec l'accroissement du calcul, de sorte que NVL72 peut prendre en charge jusqu'à neuf fois plus de rendement de GPU qu'un seul système à huit GPU.
Les workflows d'analyse de données et de bases de données reposent traditionnellement sur les CPU pour les calculs. La science des données accélérée par GPU peut améliorer significativement les performances d’analyses de bout en bout et ainsi accélérer la génération de valeur ajoutée tout en réduisant les coûts d’exploitation. Les bases de données, y compris Apache Spark, jouent un rôle essentiel dans la gestion, le traitement et l'analyse de grands volumes de données pour l'analyse de données.
Le moteur de décompression de Blackwell et sa capacité à accéder à d'énormes quantités de mémoire dans le CPU NVIDIA Grace™ sur une liaison haute vitesse (900 gigaoctets par seconde (Go/s) de bande passante bidirectionnelle) accélèrent le pipeline complet de requêtes de base de données pour offrir les performances les plus élevées en matière d'analyse et de Data Science en prenant en charge les derniers formats de compression tels que LZ4, Snappy et Deflate.
Blackwell ajoute une résilience intelligente avec un moteur de fiabilité, de disponibilité et de facilité de service (RAS) dédié pour identifier les défauts potentiels qui peuvent survenir dès le début afin de minimiser les temps d'arrêt. Les capacités de gestion prédictive de NVIDIA basées sur l'IA surveillent en permanence la santé globale de milliers de points de données matériels et logiciels afin de prédire et d'intercepter les causes à l'origine de temps d'arrêt et d'inefficacité. Cela crée une résilience intelligente qui permet d'économiser du temps, de l'énergie et des coûts de calcul.
Le moteur RAS de NVIDIA fournit des informations de diagnostic approfondies qui peuvent identifier les problématiques et planifier une maintenance. Le moteur RAS réduit les délais de réponse en localisant rapidement la source des problèmes et minimise les temps d'arrêt en facilitant une correction efficace.
En savoir plus sur l'architecture qui alimente la nouvelle ère de l'IA générative et du calcul accéléré.