NVIDIA Ampere
アーキテクチャ

世界最高クラスのパフォーマンスを誇るエラスティックなデータ センターの心臓部。

最新のデータ センターにおける AI と HPC の中核

AI と HPC を利用し、科学、産業、ビジネスにおける世界の最重要問題を解決します。複雑なコンテンツを可視化して最先端の製品を開発し、没入感のある物語を語り、未来の都市を再創造します。膨大なデータセットから新しいインサイトを抽出します。エラスティック コンピューティング時代のために開発された NVIDIA Ampere アーキテクチャはあらゆる課題に対応し、あらゆる規模で比類のない高速化を提供します。

画期的なイノベーション

540 億個のトランジスタを搭載した NVIDIA Ampere アーキテクチャは、これまでに製造されてきた中で最大の 7 ナノメートル (nm) チップであり、主に 6 つの画期的な技術革新を特徴としています。

第 3 世代 Tensor コア

NVIDIA Volta™ アーキテクチャで最初に導入された NVIDIA Tensor コア テクノロジは、AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。NVIDIA Ampere アーキテクチャはこのイノベーションを基盤としており、新しい精度である Tensor Float 32 (TF32) と 64 ビット浮動小数点 (FP64) を導入することで、AI の導入を加速して簡素化し、Tensor コアのパワーを HPC にもたらします。

TF32 は FP32 と同じように動作しますが、コードを変更しなくても、AI を最大 20 倍スピードアップします。 NVIDIA Automatic Mixed Precisionを使用すると、研究者はわずか数行のコードを追加するだけで、自動混合精度と FP16 でさらに 2 倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4 に対応しているので、NVIDIA Ampere アーキテクチャの Tensor コア GPU の Tensor コアは、AI のトレーニングと推論の両方に対する、非常に汎用性の高いアクセラレータです。また、Tensor コアのパワーを HPC にもたらす A100 および A30 GPU GPU では、完全な IEEE 準拠の FP64 精度での行列演算を実行できます。

第 3 世代 Tensor コア
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

あらゆる AI と HPC アプリケーションがアクセラレーションの恩恵を受けることができますが、すべてのアプリケーションが GPU のフル パフォーマンスを必要とするわけではありません。Multi-Instance GPU (MIG) は、 A100  と A30 GPU PU でサポートされている機能であり、ワークロードが GPU を共有することを可能にします。MIG を利用すると、各 GPU を複数の GPU インスタンスに分割できます。各インスタンスは完全に分離され、ハードウェア レベルで保護され、専用の高帯域幅メモリ、キャッシュ、コンピューティング コアを与えられます。これにより開発者は、大小を問わずあらゆるアプリケーションに対して画期的な高速化を利用できるようになり、サービス品質も保証されます。また、IT 管理者は、適切なサイズの GPU アクセラレーションを提供することで利用率を最適化し、ベアメタル環境と仮想化環境の両方ですべてのユーザーとアプリケーションにアクセスを拡張できます。

スパース構造

スパース構造

現代の AI ネットワークは大きく、数百万、場合によっては数十億のパラメーターを持ち、ますますその規模は拡大しています。これらのパラメーターのすべてが正確な予測や推論に必要なわけではなく、一部のパラメーターをゼロに変換することで、精度を下げることなくモデルを「スパース」にすることができます。Tensor コアでは、スパースなモデルのパフォーマンスを最大 2 倍にすることができます。スパース機能は AI 推論で特に効果を発揮しますが、モデル トレーニングのパフォーマンス向上にも利用できます。

第 2 世代 RT コア

NVIDIA A40 の NVIDIA Ampere アーキテクチャの第 2 世代 RT コアは、映画コンテンツのフォトリアルなレンダリング、建築デザインの評価、製品デザインのバーチャル試作品などのワークロードを大幅にスピードアップします。RT コアはまた、レイ トレーシングされたモーション ブラーのレンダリングをスピードアップし、短時間で結果が得られ、ビジュアルの精度が上がります。さらに、レイ トレーシングをシェーディング機能またはノイズ除去機能と共に同時に実行できます。

第 2 世代 RT コア
よりスマートで高速なメモリ

よりスマートで高速なメモリ

A100 は、データ センターでの膨大な量のコンピューティングを可能にします。コンピューティング エンジンを常に完全に活用するために、A100 はこのクラスで最大となる毎秒 2 テラバイト (TB/s) のメモリ帯域幅を備えています。前世代の 2 倍以上です。さらに、A100 は前世代の 7 倍となる 40 メガバイト (MB) のレベル 2 キャッシュを含む、より大きなオンチップ メモリを搭載しており、コンピューティング パフォーマンスを最大限まで引き上げます。

規模に応じた最適化

NVIDIA GPU および NVIDIA コンバージド アクセラレータは、大規模な展開に特化しており、クラウド、データ センター、エッジに、ネットワーキング、セキュリティ、小さな設置面積をもたらします。

あらゆるサーバーに合わせて最適化される電力

シリーズの中で占有面積が最小となる NVIDIA A2 GPU は、5G エッジ環境や工業環境など、スペース要件と熱要件で制約されるエントリレベル サーバーでの推論のワークロードや展開に合わせて最適化されています。A2 なら、薄型フォームファクターを低出力エンベロープで作動させることができます。TDP (熱設計電力) は 60W ~ 40W となり、あらゆるサーバーに最適です。

あらゆるサーバーに合わせて最適化される電力
統合コンピューティングとネットワーク高速化

統合コンピューティングとネットワーク高速化

NVIDIA コンバージド アクセラレータでは、NVIDIA Ampere アーキテクチャと NVIDIA BlueField®-2 データ プロセシング ユニット (DPU) の連動により、エッジ コンピューティング、通信、ネットワーク セキュリティにおいて、AI をパワーとするワークロードのためにかつてないパフォーマンスと機能強化されたセキュリティとネットワーキングをもたらします。BlueField-2 は、NVIDIA ConnectX®-6 Dx のパワーに、プログラム可能な Arm® コア、ハードウェア オフロード機能を組み合わせ、ソフトウェアデファインドのストレージ、ネットワーク、セキュリティ、管理に対応します。NVIDIA コンバージド アクセラレータは、ネットワークを集中的に利用し、GPU で高速化するワークロードのために、データ センターで新しいレベルの効率性を実現します。

密度を最適化する設計

NVIDIA A16 GPU はクアッド GPU ボード デザインで、ユーザー密度に対して最適化されています。NVIDIA 仮想 PC (vPC) ソフトウェアと組み合わせることで、どこからでもアクセスできるグラフィックス リッチな仮想 PC を実現します。NVIDIA A16 は、CPU のみの VDI に比べて、より高いフレームレートと、より低いエンド ユーザー レイテンシを実現し、より応答性の高いアプリケーションと、ネイティブ PC に匹敵するユーザー体験を提供します。

密度を最適化する設計
安全な導入

安全な導入

企業で事業を運営するには、安全な導入が不可欠です。NVIDIA Ampere アーキテクチャは、オプションで、信頼できるコード認証と強化されたロールバック保護で悪意のあるマルウェア攻撃を防ぎ、安全な起動を実現します。運営上の損失を防ぎ、ワークロードが高速化されます。

NVIDIA Ampere アーキテクチャの技術詳細

NVIDIA Ampere アーキテクチャの最先端技術をご覧ください。