台湾、台北 – COMPUTEX – 2023 年 5 月 29 日 – NVIDIA は本日、新しいクラスの大規模メモリ AI スーパーコンピューターを発表しました。NVIDIA® GH200 Grace Hopper Superchip と NVIDIA NVLink® Switch System を搭載したこのNVIDIA DGX ™ スーパーコンピューターは、生成 AI 言語アプリケーション、レコメンダー システム、データ分析ワークロード用の巨大な次世代モデルの開発を可能にします。
NVIDIA DGX GH200 の大規模な共有メモリ空間は、NVLink インターコネクト テクノロジと NVLink Switch System を使用して 256 基の GH200 Superchip を結合し、単一の GPU として実行可能にします。これにより、1 エクサフロップのパフォーマンスと 144 テラバイトの共有メモリが提供されます。これは、2020年に発表された前世代の NVIDIA DGX A100 システムのほぼ 500 倍のメモリ容量です。
NVIDIA の創業者/CEO であるジェンスン フアン (Jensen Huang) は次のように述べています。「生成 AI、大規模言語モデル、レコメンダー システムは現代の経済におけるデジタル エンジンです。DGX GH200 AI スーパーコンピューターは、NVIDIA の最先端のアクセラレーテッド コンピューティングとネットワーキング テクノロジを統合して、AI のフロンティアを拡大します」
NVIDIA NVLink テクノロジにより AI が大規模に拡張
GH200 Superchip は、NVIDIA NVLink-C2C チップ インターコネクトを使用して、Arm ベースの NVIDIA Grace™ CPU と NVIDIA H100 TensorコアGPU を同じパッケージ内で組み合わせることで、従来の CPU とGPU間の PCIe 接続の必要性を排除します。これにより、最新の PCIe テクノロジと比較して GPU と CPU 間の帯域幅が 7 倍に増加し、インターコネクトの消費電力が 5 倍以上削減され、DGX GH200 スーパーコンピューターのための 600 GB のHopperアーキテクチャ のGPU ビルディング ブロックを提供します。
DGX GH200 は、Grace Hopper Superchip と NVIDIA NVLink Switch System を組み合わせた初のスーパーコンピューターです。これは、DGX GH200 システム内のすべての GPU を 1 基のGPUとして連携できるようにする新しいインターコネクトです。前世代のシステムでは、パフォーマンスを損なうことなく 1 基の GPU として利用するには、8 基の GPU を NVLink で組み合わせることしかできませんでした。
DGX GH200 アーキテクチャは、前世代の 48倍のNVLinkの帯域幅を提供し、単一の GPU をプログラミングする簡単さで大規模な AI スーパーコンピューターのパワーを実現します。
AI パイオニアのための新しいリサーチ ツール
Google Cloud、Meta、そしてMicrosoft は、生成 AI ワークロードの機能を探索するために DGX GH200 を活用予定の最初の企業の 1 つです。NVIDIA はまた、DGX GH200 のデザインをクラウド サービス プロバイダーや他のハイパースケーラーに設計図として提供し、自社のインフラストラクチャに合わせてさらにカスタマイズできるようにする予定です。
「高度な生成モデルを構築するには、AI インフラストラクチャへの革新的なアプローチが必要です」と語るのは、Google Cloud のコンピューティング担当バイス プレジデントの Mark Lohmeyer 氏です。「Grace Hopper Superchip における NVLink の新たなスケールと共有メモリは、大規模 AI の主要なボトルネックに対処するものであり、Google Cloud と当社の生成 AI イニシアチブにてその機能を活用することを楽しみにしています」
Meta のインフラストラクチャ、AI システムおよびアクセラレーテッド プラットフォーム担当バイス プレジデント、Alexis Björlin 氏は次のように述べています。「AI モデルが大きくなるにつれて、増大する需要に合わせて拡張できる強力なインフラストラクチャが必要になります。NVIDIA の Grace Hopper のデザインによって、研究者が最大規模の課題を解決するための新しいアプローチを探索できるようになるでしょう」
Microsoft の Azure Infrastructure 担当コーポレート バイス プレジデントである Girish Bablani 氏は、以下のように述べています。「大規模な AI モデルのトレーニングは、従来、リソースと時間がかかる作業でした。テラバイトサイズのデータセットを扱う潜在力を秘めた DGX GH200 によって、開発者はより大きなスケールで高度な研究をより早く進めることができるようになるでしょう」
研究開発を促進する新しい NVIDIA Helios スーパーコンピューター
NVIDIA は、研究者や開発チームの作業を強化するために、独自の DGX GH200 ベースの AI スーパーコンピューターを構築しています。NVIDIA Helios と名付けられたこのスーパーコンピューターは、4 つの DGX GH200 システムを搭載します。
Helios スーパーコンピューターの各システムは、最大 400Gb/s の帯域幅を備えた NVIDIA Quantum-2 InfiniBand ネットワーキングで相互接続され、大規模な AI モデルをトレーニングするためのデータ スループットを強化します。Helios は 1,024 基の Grace Hopper Superchip を搭載し、年末までに稼働を開始する予定です。
完全に統合され、巨大モデルのために構築
DGX GH200 スーパーコンピューターには、最大規模の AI およびデータ分析ワークロードにターンキーのフルスタック ソリューションを提供する NVIDIA ソフトウェアが含まれています。NVIDIA Base Command™ ソフトウェアは、AI ワークフロー管理、エンタープライズ グレードのクラスター管理、そしてコンピューティング、ストレージ、ネットワーク インフラストラクチャを高速化するライブラリ、および AI ワークロードの実行に最適化されたシステム ソフトウェアを提供します。
NVIDIA AI プラットフォームのソフトウェア レイヤーである NVIDIA AI Enterprise も含まれています。生成 AI、コンピューター ビジョン、音声 AI などを含む実稼働のための AI 開発と展開を効率化するための 100 を超えるフレームワーク、事前トレーニング済みモデル、開発ツールを提供します。
提供予定
NVIDIA DGX GH200 スーパーコンピューターは、年末までに提供が開始される予定です。
COMPUTEX 2023 の基調講演でフアンが NVIDIA DGX GH200 スーパーコンピューターについて説明する様子を、リプレイでご覧ください。
NVIDIA について
1993年の創業以来、NVIDIA(NASDAQ:NVDA)はアクセラレーテッド コンピューティングのパイオニアです。同社が 1999 年に発明した GPU は、PC ゲーム市場の成長を促進し、コンピューター グラフィックスを再定義して、現代の AI の時代に火をつけながら、産業用メタバースの創造を後押ししています。NVIDIA は現在、業界を再形成しているデータセンター規模の製品を提供するフルスタック コンピューティング企業です。詳細については、https://nvidianews.nvidia.com/ をご参照ください。