AI 推論時代の、AI ファクトリーを支えるエンジンが、現在本格生産に入っています。
NVIDIA Blackwell アーキテクチャが生成 AI とアクセラレーテッド コンピューティングにもたらす画期的な進歩をご覧ください。Blackwell は、何世代にもわたる NVIDIA のテクノロジ をベースに、突出したパフォーマンス、効率性、スケールを備えた生成 AI の次の時代を明確に定義します。
Blackwell アーキテクチャ GPU は、2080 億個のトランジスタを搭載し、カスタムビルドされた TSMC 4NP プロセスを使用して製造されています。すべての Blackwell 製品は、統合された単一 GPU で、10 テラバイト/秒 (TB/s) のチップ間相互接続によって接続された 2 つのレチクル限定ダイを備えています。
第 2 世代 Transformer Engine は、カスタム Blackwell Tensor コア テクノロジを NVIDIA TensorRT™-LLM および NeMo™ フレームワークのイノベーションと組み合わせて使用し、大規模言語モデル (LLM) と混合エキスパート (MoE) モデルの推論と学習を加速します。Blackwell Tensor コアは、新しいコミュニティ定義のマイクロスケーリング フォーマットを含む新しい精度を付加し、高い正確性を備え、さらに高い精度への容易な置き換えを実現します。
Blackwell Ultra Tensor コアは、Blackwell GPU と比較して、2 倍のアテンションレイヤー アクセラレーションと、1.5 倍の AI コンピューティング FLOPS を実現し強化されています。Blackwell Transformer Engine は、マイクロ テンソル スケーリングと呼ばれる細粒度のスケーリング手法を活用し、パフォーマンスと精度を最適化し、4 ビット浮動小数点 (FP4) AI を実現します。これにより、高い精度を維持しながら、メモリがサポートできる次世代モデルのパフォーマンスとサイズが倍増します。
Blackwell には、NVIDIA コンフィデンシャル コンピューティングが導入されており、ハードウェアベースの強力なセキュリティで機密データや AI モデルを不正アクセスから保護します。Blackwell は業界初の TEE-I/O 対応 GPU であり、TEE-I/O 対応ホストと NVIDIA® NVLink® によるインライン保護で非常に高性能なコンフィデンシャル コンピューティング ソリューションを提供します。Blackwell コンフィデンシャル コンピューティングは、暗号化なしモードと比べ、ほぼ同等のスループット パフォーマンスになります。企業は、AI の知的財産 (IP) を保護し、機密の AI トレーニング、推論、連合学習を安全な方法で可能にするだけでなく、非常に大きなモデルをパフォーマンスに優れた方法で保護できるようになりました。
エクサスケール コンピューティングと兆単位パラメーター AI モデルの可能性を最大限に引き出すには、サーバー クラスター内の全 GPU 間での高速かつシームレスな通信が必要になります。第 5 世代の NVIDIA® NVLink® インターコネクトは最大 576 個の GPU まで拡張できて、パラメーターが 1 兆から数兆単位になる AI モデルのためにアクセラレーテッド パフォーマンスを発揮します。
NVIDIA NVLink Switch Chip は、1 つの 72-GPU NVLink ドメイン (NVL72) で 130TB/秒の GPU の帯域幅を備えることができ、NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ FP8 をサポートすることで、4 倍の帯域幅効率を実現します。NVIDIA NVLink Switch Chip は、1 台のサーバーを超えるクラスターを同じ 1.8TB/秒の驚異的な相互接続でサポートします。NVLink を使用するマルチサーバー クラスターは、コンピューティングの増加に合わせて GPU 通信を拡張します。そのため、NVL72 は、単一の 8 基の GPU を搭載したシステムに比べて 9 倍の GPU スループットをサポートすることができます。
データ分析とデータベースのワークフローは従来、コンピューティングに CPU を使用していました。アクセラレーテッド データ サイエンスでは、エンドツーエンドの分析パフォーマンスを劇的に向上させ、価値創出までの時間を短縮することで、コストを削減することができます。Apache Spark を含むデータベースは、データ分析のために大量のデータを処理、加工、分析する上で重要な役割を果たします。
Blackwell の Decompresison Engine と、 NVIDIA Grace™ CPU の大量のメモリに高速リンク (毎秒 900 ギガバイトの双方向帯域幅) でアクセスできる機能は、データベース クエリのパイプライン全体を高速化し、かつ、LZ4、Snappy、Deflate など最新の圧縮形式をサポートし、データ分析とデータ サイエンスで非常に高いパフォーマンスを達成します。
Blackwell は専用の RAS (信頼性、可用性、保守性) エンジンによるインテリジェントな回復性を備え、早期に発生する可能性がある潜在的障害を特定し、ダウンタイムを最小限に抑えます。NVIDIA の AI を活用した予測管理機能は、ハードウェアおよびソフトウェアの全体的な正常性を何千ものデータ ポイントで継続的に監視し、ダウンタイムや非効率性の発生源を予測し、阻止します。これにより、時間、電力、コンピューティング コストを節約するインテリジェントな回復性が与えられます。
NVIDIA の RAS エンジンは詳しい診断情報を提供し、懸念される領域を特定し、メンテナンスを計画できます。この RAS エンジンは、問題の原因を速やかに特定することでターンアラウンド タイムを短縮し、効果的な修正を促進することでダウンタイムを最小限に抑えます。
生成 AI とアクセラレーテッド コンピューティングの新時代を支えるアーキテクチャの詳細をご覧ください。