NVIDIA は本日、テネシー州メンフィスに設置された、10 万基の NVIDIA Hopper GPU で構成される xAI の Colossus スーパーコンピューター クラスターが、NVIDIA Spectrum-X™ イーサネット ネットワーキング プラットフォームを使用して、この膨大な規模を達成したことを発表しました。このプラットフォームは、標準ベースのイーサネットを使用しながら、リモート ダイレクト メモリ アクセス (RDMA) ネットワークを実現し、マルチテナントのハイパースケール AI ファクトリーに優れたパフォーマンスを提供するように設計されています。
世界最大の AI スーパーコンピューターである Colossus は、X Premium 加入者向けの機能としてチャットボットを提供している xAI の大規模言語モデルである Grok ファミリーのトレーニングに使用されています。xAI は、Colossus の規模を倍増させ、合計 20 万基の NVIDIA Hopper GPU に増強する作業を進めています。
関連施設と最先端のスーパーコンピューターは、xAI と NVIDIA によってわずか 122 日で構築されました。通常、この規模のシステムの構築には数か月から数年はかかりますが、最初のラックを設置してからトレーニングを開始するまでに要した期間は 19 日でした。
Colossus は、超大規模な Grok モデルのトレーニング中に、前例のないネットワーク パフォーマンスを達成しています。フロー衝突によるアプリケーション遅延やパケット損失は、3 階層のネットワーク ファブリック全体にわたって一切発生しておらず、Spectrum-X の輻輳制御により 95% のデータ スループットを維持しています。
標準的なイーサネットの場合、データ スループットは 60% しか提供できず、フロー衝突が何千回も発生するため、このレベルのパフォーマンスを大規模に達成することはできません。
NVIDIA のネットワーキング担当シニア バイス プレジデントであるギラッド シャイナー (Gilad Shainer) は、次のように述べています。「AI はミッション クリティカルなものになりつつあり、パフォーマンス、セキュリティ、スケーラビリティ、コスト効率の向上が求められています。NVIDIA Spectrum-X イーサネット ネットワーキング プラットフォームは、xAI のようなイノベーターの AI ワークロードの処理、分析、実行を高速化し、AI ソリューションの開発、展開、市場投入にかかる時間を短縮するように設計されています」
Elon Musk 氏は、X への投稿の中で、「Colossus は世界で最も強力なトレーニング システムです。xAI チーム、NVIDIA、そして多くのパートナーやサプライヤーによる素晴らしい仕事です」と語っています。
xAI の広報担当者は次のように述べています。「xAI は、世界で最も大規模かつ強力なスーパーコンピューターを構築しました。NVIDIA の Hopper GPU と Spectrum-X により、イーサネット標準をベースに超高速で最適化された AI ファクトリーを構築し、AI モデルのトレーニングの限界を大幅に押し上げることが可能になりました」
Spectrum-X プラットフォームの中核をなしているのは、Spectrum-4 スイッチ ASIC をベースとし、最大 800Gb/s のポート速度に対応した Spectrum SN5600 イーサネット スイッチです。xAI は、前例のないパフォーマンスを実現するために、Spectrum-X SN5600 スイッチに NVIDIA BlueField-3® SuperNIC を組み合わせました。
AI 向け Spectrum-X イーサネット ネットワーキングは、従来は InfiniBand でしか得られなかった低レイテンシとテール レイテンシを持つ非常に効果的でスケーラブルな帯域幅を実現する先進的な機能を提供します。これらの機能としては、NVIDIA Direct Data Placement テクノロジによるアダプティブ ルーティングや輻輳制御のほか、AI ファブリックの可視性とパフォーマンスの分離の向上も挙げられ、いずれもマルチテナント生成 AI クラウドや大規模エンタープライズ環境の重要な要件です。