- 最先端の NVIDIA ネットワーク、NVIDIA フルスタック AI ソフトウェア、ストレージを使用して、数万基の Grace Blackwell Superchipまで拡張可能
- NVIDIA NVLink で最大 576 基の Blackwell GPU を 1 つとして接続できる機能
- NVIDIA システムの専門家が即時 AI インフラストラクチャの導入を迅速に実現
カリフォルニア州サンノゼ – GTC – 2024 年 3 月 18 日 – NVIDIA は本日、超大規模な生成 AI トレーニングおよび推論ワークロード向けに一定したアップタイムで数兆パラメータ モデルを処理する、次世代 AI スーパーコンピューター、NVIDIA GB200 Grace Blackwell Superchip 搭載 NVIDIA DGX SuperPOD™ を発表しました。
新たに高効率な液冷ラックスケール アーキテクチャを特徴とする新しい DGX SuperPOD は、NVIDIA DGX™ GB200 システムで構築され、FP4 精度で 11.5 エクサフロップスの AI スーパーコンピューティングと 240 テラバイトの高速メモリを提供し、ラックを追加することでさらに拡張できます。
各 DGX GB200 システムは、36 基の NVIDIA Grace CPU と 72 基の NVIDIA Blackwell GPU を含む 36 基の NVIDIA GB200 Superchip を備えており、第 5 世代の NVIDIA NVLink® を介して 1 つのスーパーコンピューターとして接続されています。GB200 Superchip は、大規模言語モデルの推論ワークロードにおいて、NVIDIA H100 Tensor コア GPU と比較して最大 30 倍のパフォーマンス向上を実現します。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は次のように述べています。「NVIDIA DGX AI スーパーコンピューターは、AI 産業革命の工場です。新しい DGX SuperPOD は、NVIDIA アクセラレーテッド コンピューティング、ネットワーキング、ソフトウェアの最新の進歩を組み合わせて、あらゆる企業、業界、国が独自の AI を改良し、生成できるようにします」
Grace Blackwell 搭載のDGX SuperPOD は 8 台以上の DGX GB200 システムを備えており、NVIDIA Quantum InfiniBand 経由で接続することで、数万の GB200 Superchip まで拡張できます。次世代の AI モデルを強化するための大規模な共有メモリ空間を実現するために、顧客は NVLink で接続された 8 台の DGX GB200 システム内の 576 基の Blackwell GPU を接続する構成を展開可能です。
生成 AI 時代に向けた新しいラックスケール DGX SuperPOD アーキテクチャ
DGX GB200 システムを備えた新しい DGX SuperPOD は、統合されたコンピューティング ファブリックを備えています。 このファブリックには、第 5 世代 NVIDIA NVLink に加えて、NVIDIA BlueField®-3 DPU が含まれており、本日別途発表された NVIDIA Quantum-X800 InfiniBand ネットワーキングをサポートします。第5世代のNVIDIA NVLinkに加え、このファブリックにはNVIDIA BlueField®-3 DPUが含まれ、NVIDIA Quantum-X800 InfiniBandネットワーキングをサポートします、このアーキテクチャは、プラットフォーム内の各 GPU に最大 1,800 ギガバイト/秒の帯域幅を提供します。
さらに、第 4 世代の NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™ テクノロジは、14.4 テラフロップスのIn-Networkコンピューティングを提供します。これは、前世代と比較して、次世代 DGX SuperPOD アーキテクチャでは 4 倍向上しています。
ターンキー アーキテクチャと高度なソフトウェアの組み合わせにより前例のないアップタイムを実現
新しい DGX SuperPOD は、生成 AI ワークロードの要求を満たすために、NVIDIA 認定パートナーの高性能ストレージと統合された完全なデータセンター規模の AI スーパーコンピューターです。 それぞれが工場で構築、ケーブル接続、テストされるため、顧客のデータセンターでの展開が大幅に高速化されます。
Grace Blackwell 搭載のDGX SuperPODは、インテリジェントな予測管理機能を備えており、ハードウェアとソフトウェア全体で何千ものデータ ポイントを継続的に監視し、ダウンタイムと非効率の原因を予測して遮断し、時間、エネルギー、コンピューティング コストを節約します。
このソフトウェアは、システム管理者がいない場合でも、懸念領域を特定してメンテナンスを計画し、コンピューティング リソースを柔軟に調整し、ダウンタイムを防ぐためにジョブを自動的に保存して再開することができます。
ソフトウェアがコンポーネントの交換が必要であることを検出すると、クラスタはスタンバイ キャパシティをアクティブにして、作業が時間内に完了するようにします。計画外のダウンタイムを回避するために、必要なハードウェア交換をスケジュールできます。
NVIDIA DGX B200 システムが産業向けAI スーパーコンピューティングを推進
NVIDIA は、AI モデルのトレーニング、ファインチューニング、推論のための統合 AI スーパーコンピューティング プラットフォームである NVIDIA DGX B200 システムも発表しました。
DGX B200 は、世界中の企業で使用されている空冷式の従来のラックマウント型 DGX 設計の第 6 世代です。新しい Blackwell アーキテクチャ DGX B200 システムには、8 基の NVIDIA B200 Tensor コア GPU と 2 基の第 5 世代インテル® Xeon® プロセッサが含まれています。顧客はまた、DGX B200 システムを使用して DGX SuperPOD を構築し、さまざまなジョブを実行する大規模な開発者チームの作業を強化できる AI Center of Excellence を造ることも可能です。
DGX B200 システムには、新しい Blackwell アーキテクチャに FP4 精度機能が組み込まれており、最大 144 ペタフロップスの AI パフォーマンス、1.4 TB の大容量 GPU メモリ、および 64TB/秒のメモリ帯域幅を提供します。これにより、1兆パラメータ モデルのリアルタイム推論が前世代に比べて 15 倍高速化されます。
DGX B200 システムには、8 基の NVIDIA ConnectX™-7 NIC と 2 基の BlueField-3 DPU を備えた高度なネットワークが含まれています。 これらは、接続ごとに最大 400 ギガビット/秒の帯域幅を提供し、NVIDIA Quantum-2 InfiniBand および NVIDIA Spectrum™-X Ethernet™ ネットワーキング プラットフォームで高速 AI パフォーマンスを実現します。
プロダクション AI を拡張するためのソフトウェアと専門家のサポート
すべての NVIDIA DGX プラットフォームには、エンタープライズ グレードの開発と展開のための NVIDIA AI Enterprise ソフトウェアが含まれています。DGX の顧客は、ソフトウェア プラットフォームに含まれる事前トレーニング済みの NVIDIA 基盤モデル、フレームワーク、ツールキット、および新しい NVIDIA NIM マイクロサービスを使用して作業を加速できます。
NVIDIA DGX エキスパートと、厳選された DGX プラットフォームのサポートを認定されたNVIDIA パートナーが、展開のあらゆる段階を通じて顧客を支援し、AI を迅速に実稼働環境に移行できるようにします。システムが稼働し次第、DGX のエキスパートが引き続き顧客の AI パイプラインとインフラストラクチャの最適化をサポートします。
提供時期
DGX GB200 および DGX B200 システムを搭載した NVIDIA DGX SuperPOD は、今年後半に NVIDIA のグローバル パートナーから発売される予定です。
詳細については、GTC 基調講演のアーカイブ視聴をご覧いただくか、サンノゼ コンベンション センターで 3 月 21 日まで開催される GTC の NVIDIA ブースにご参加ください。