GeForce RTX 40 シリーズ グラフィックス カードにおける VRAM の詳細

執筆者: Andrew Burnes 投稿日: 2023年5月18日木曜日 | 特集記事 GeForce RTX GPU ハードウェア NVIDIA RTX

フレーム バッファ、ビデオ メモリ、または「VRAM」としても知られるグラフィックス メモリについて多くの質問をいただくことがあります。そこで、新しいGeForce RTX 4060 ファミリのグラフィックス カードの発表に伴い、ゲーマーがゲーミングのニーズに合わせて最善の購入決定を下せるように、いくつかの洞察を共有します。

VRAM とは?

VRAM は、グラフィックス カードに搭載された高速なメモリです。より大きなメモリ サブシステムの 1 つのコンポーネントであり、GPU が画像をスムーズに処理し表示するために必要なデータにアクセスできるようにします。

この記事では、最新世代の Ada Lovelace GPU アーキテクチャにおけるメモリ サブシステムの革新、および GPU キャッシュや VRAM の速度とサイズが性能やゲームプレイ体験にどのように影響するかについて説明します。

GeForce RTX 40 シリーズ グラフィックス カードのメモリ サブシステム: 性能と効率を改善

最近のゲームはグラフィックスのショーケースであり、そのインストール サイズは今や 100GB を超えることもあります。この膨大なデータへのアクセスは、GPU の仕様やシステムの他のコンポーネントによって、さまざまな速度で行われます。

GeForce RTX 40 シリーズ グラフィックス カードでは、新たな革新により、スムーズなゲーミングとより速いフレーム レートのためのプロセスが加速され、テクスチャのストリームインなどの不都合を回避します。

キャッシュの重要性

GPU には、GPU の処理コアに近い場所に、必要になりそうなデータを保存しておく高速なメモリ キャッシュがあります。GPU がデータを (より遠くの) VRAM や (さらに遠い) システム RAMから要求するのではなく、キャッシュから呼び出すことができれば、データへのアクセスや処理が速くなり、性能やゲームプレイのスムーズさが向上し、消費電力が削減されます。

GeForce GPU は、各 Streaming Multiprocessor (SM) 内にレベル 1 (L1) キャッシュ (最も近く、最も速いキャッシュ ) を備えており、各 GeForce RTX 40 シリーズの Graphics Processing Cluster (GPC) には最大 12 個のキャッシュが見られます。これに続くのが、最小限のレイテンシで素早くアクセスできる、高速で大きな共有のレベル 2 (L2) キャッシュです。

それぞれのキャッシュ レベルにアクセスするとレイテンシが発生しますが、その代わりに容量が大きくなります。GeForce RTX 40 シリーズ GPU を設計する際、単一の大きな L2 キャッシュの方が、小さな L2 キャッシュと大きくてアクセス速度の遅い L3 キャッシュを備えたものなど、他の選択肢よりも高速かつ効率的であることがわかりました。

前世代の GeForce GPU は、L2 キャッシュが非常に小さく、現在の GeForce RTX 40 シリーズ GPU と比較して、性能と効率が低くなっています。

使用中に、GPU はまず SM 内の L1 データ キャッシュにあるデータを検索し、L1 にデータが見つかれば L2 データ キャッシュにアクセスする必要はありません。L1 でデータが見つからなかった場合、それは「キャッシュ ミス」と呼ばれ、検索は L2 キャッシュに続けられます。L2 でデータが見つかった場合、それは L2「キャッシュ ヒット」と呼ばれ (上図の記号「H」を参照)、データは L1、そして処理コアに提供されます。

L2 キャッシュにデータが見つからない場合、L2「キャッシュ ミス」となり、GPU は今度は VRAM からデータを取得しようとします。NVIDIA の以前のアーキテクチャのメモリ サブシステムを示す上の図では、多数の L2 キャッシュ ミスが確認でき、これにより多数の VRAM アクセスが発生しています。

VRAM からデータが見つからない場合、GPU はシステム メモリからデータを要求します。データがシステム メモリにない場合は、通常、SSD やハードディスク ドライブなどのストレージ デバイスからシステム メモリに読み込みます。データはその後、VRAM、L2、L1 にコピーされ、最終的に処理コアに供給されます。最も有用で、最も再利用されるデータをキャッシュに残すために、さまざまなハードウェア ベースおよびソフトウェア ベースの戦略が存在します。

メモリ階層を通過するデータの読み書きが増えるたびに、性能が低下し、より多くの電力を使用します。そのため、キャッシュ ヒット率を上げることで、フレーム レートを向上させ、効率を上げることができます。

128 ビット メモリ インターフェイスを持つ前世代の GPU と比較して、新しい NVIDIA Ada Lovelace アーキテクチャのメモリ サブシステムは、L2 キャッシュのサイズを 16 倍に拡大し、キャッシュ ヒット率を大幅に向上させました。上記の例では、Ada と前世代のアーキテクチャの 128 ビット GPU を表していますが、ヒット率は Ada の方がはるかに高くなっています。また、Ada GPU の L2 キャッシュの帯域幅は、従来の GPU に比べて大幅に拡大されています。これにより、コアと L2 キャッシュの間でより多くのデータを可能な限り速く転送することができます。

下の図が示すように、NVIDIA のエンジニアは、32MB の L2 キャッシュを搭載した RTX 4060 Ti を、前世代の 128 ビット GPU (512KB の L2 キャッシュが各 32 ビット メモリ コントローラーに接続) の L2 キャッシュ サイズである 2MB の L2 のみを搭載した特別テスト バージョンの RTX 4060 Ti に対してテストしました。

様々なゲームや総合的なベンチマークを用いたテストでは、32MB L2 キャッシュは、2MB L2 キャッシュの性能と比較して、メモリ バスのトラフィックを平均で 50% 強削減しました。上の Ada メモリ サブシステムの図にある VRAM アクセスの減少をご覧ください。

この 50% のトラフィック削減により、GPU はメモリ帯域幅を 2 倍効率的に使用することができます。その結果、このシナリオでは、メモリ性能を分離すると、ピーク メモリ帯域幅が毎秒 288GB の Ada GPU は、ピーク メモリ帯域幅が毎秒 554GB の Ampere GPU と同様の性能を発揮します。様々なゲームや総合的なテストにおいて、ヒット率が大幅に向上したことにより、フレーム レートが最大で 34% 向上しています。

メモリ バス幅はメモリ サブシステムのひとつの側面

歴史的に、メモリ バス幅は、新しい GPU の速度や性能クラスを決定するための重要な指標として使われてきました。しかし、バス幅だけでは、メモリ サブシステムの性能を示す十分な指標とは言えません。それよりも、より広範なメモリ サブシステムの設計と、ゲーミング性能への全体的な影響を理解することが役立ちます。

新しい RT コアと Tensor コア、より高いクロック スピード、新しい OFA エンジン、Ada の DLSS 3 機能を含む Ada アーキテクチャの進歩により、GeForce RTX 4060 Ti は、より少ない電力で、前世代の 256 ビット GeForce RTX 3060 Ti および RTX 2060 SUPER グラフィックス カードより高速です。

総じて、この技術仕様は、Steam ユーザーの大半を占める 1080p ゲーマーに高い性能を発揮する素晴らしい 60 クラス GPU を実現しています。

VRAM の容量は GPU アーキテクチャに依存

ゲーマーは、グラフィックス カードになぜ一定の VRAM が搭載されているのか疑問に思うことがよくあります。

現在の GDDR6X および GDDR6 メモリは、チップあたり 8Gb (1GB のデータ) および 16Gb (2GB のデータ) の密度で供給されています。各メモリ チップは、2 つの独立した 16 ビット チャネルを使用して単一の 32 ビット メモリ コントローラーに接続するか、2 つの 8 ビットチャネルを使用して、2 つのメモリ チップを単一の 32 ビット メモリ コントローラーに接続することができます。これにより、128 ビット GPU は、4 つのメモリ チップまたは 8 つのメモリ チップのいずれかをサポートすることができます。

容量の大きいチップは製造コストがかかるので、価格を最適化するためにはバランスが必要です。

新しい 128 ビット メモリ バスの GeForce RTX 4060 Ti GPU では、8GB モデルで 16Gb の GDDR6 メモリ チップを 4 枚、16GB モデルで 16Gb チップを 8 枚使用しています。異なる密度のメモリを混在させることはできないので、例えば 12GB のモデルは作ることができません。GeForce RTX 4060 Ti が、メモリ インターフェイスは 192 ビットなので VRAM は 12GB である GeForce RTX 4070 Ti や 4070 よりもメモリが多い (16GB) オプションを用意しているのもそのためです。

NVIDIA の 60 クラス GPU は、性能、価格、電力効率の最適な組み合わせを実現するために慎重に作られており、そのため 128 ビットのメモリ インターフェイスを選択しました。

要するに、同じバス幅の大容量 GPU は、常にメモリが 2 倍になります。

オン スクリーン ディスプレイ (OSD) ツールの VRAM 使用量は正確か?

ゲーマーは、オン スクリーン ディスプレイの性能測定ツールで「VRAM 使用量」という指標をよく引用します。しかし、ゲームやゲーム エンジンの動作はそれぞれ異なるため、この数値は完全に正確ではありません。

ほとんどの場合、ゲームは自分用に VRAM を割り当て、システムに対して「万が一のために必要だ」と言います。しかし、VRAM を確保したからといって、実際にそのすべてが必要なわけではありません。実際、ゲームは、利用可能なメモリがある場合、より多くのメモリを要求することがよくあります。

メモリの仕組み上、何が活発に使われているかは、開発ツールにアクセスできるゲーム開発者でなければ正確に知ることはできません。ゲームによっては、オプション メニューにガイドが表示されるものもありますが、それも必ずしも正確ではありません。

実際に必要となる VRAM の容量は、シーンやプレイヤーが見ているものによって、リアルタイムに変化します。

さらに、純粋に VRAM を最大に使用した場合のゲームの挙動も様々です。あるゲームでは、メモリがパージされ、現在のシーンがメモリに再ロードされる間、顕著な性能の低下が発生します。また、一部のデータだけがロードされたりアンロードされたりして、目に見える影響がない場合もあります。また、新しいアセットがシステム RAM から取り込まれるため、ロードが遅くなるケースもあります。

ゲーマーにとって、ゲームの挙動を真に確かめるには、プレイすることが唯一の方法です。さらに、ゲーマーは、実際のゲーム体験を分析するのに役立つ「1% Low」フレーム レート測定値を見ることができます。「1% Low」測定値は、無料の NVIDIA FrameView アプリなどの一般的な測定ツールのパフォーマンス オーバーレイやログに記載されており、一定期間の最も遅い 1% の平均フレームを測定します。

GeForce Experience で設定の選択を自動化し、最新パッチをダウンロード

最近、いくつかの新しいゲームでは、映像品質を妨げることなく、メモリ使用量をよりよく管理するパッチがリリースされています。一般的に発売後すぐにバグを修正し、性能を最適化することがあるので、新作の発売時には必ず最新のパッチを入手してください。

さらに、GeForce Experience は、ほとんどの新しいゲームに対応し、対応する GeForce GPU と VRAM の構成ごとに最適化された設定を提供し、性能と画質のバランスを取ることでゲーマーに最高の体験を提供します。

ゲーム オプションの専門用語に詳しくなく、ゲームをロードした瞬間から楽しみたい場合は、GeForce Experience でゲーム設定を自動的に調整することで、毎回素晴らしい体験が得られます。

NVIDIA の技術で開発者が VRAM 使用量の削減を実現

ゲームはかつてないほどリッチで詳細になり、100GB を超えるインストールが必要になっています。開発者がメモリ使用量を最適化できるよう、NVIDIA は以下のような無料の開発者向けツールや SDK を用意しています。

  • NVIDIA RTX Memory Utility (RTXMU): レイ トレーシングは、追加の VRAM を必要としますが、RTXMU は、この使用量を最大 50% 削減できます。
  • NVIDIA Micro-Mesh SDK: 複雑なジオメトリのメモリ使用量を削減し、性能も向上させます。
  • NVIDIA Texture Tools Exporter: 高度に圧縮されたテクスチャ ファイルを作成し、メモリ使用量とゲームのファイル サイズを削減します。

これらは、開発者がすべての GPU、プラットフォーム、およびメモリ構成に対してゲームを最適化できるように、NVIDIA が無料で提供しているツールや技術のほんの一部です。

一部のアプリケーションは、より多くの VRAM を使用

ゲーミングに限らず、GeForce RTX グラフィックス カードは、3D アニメーション、ビデオ編集、モーション グラフィックス、写真編集、グラフィック デザイン、建築ビジュアライゼーション、STEM、配信、AI などに世界中で使用されています。これらの業界で使用されるアプリケーションの中には、VRAM を追加することで恩恵を受けるものがあります。例えば、Premiere Pro で 4K や 8K のタイムラインを編集したり、D5 Render で大規模な建築シーンを作成したりする場合などです。

ゲーミングでは、高解像度は一般的により多くの VRAM を必要とします。時には、オプションの特大テクスチャ パックでゲームが起動し、より多くの VRAM が割り当てられることもあります。また、4060 Ti (8GB) では「高」プリセットで、4060 Ti (16GB) では「ウルトラ」設定に最大化した状態で最高の性能を発揮するゲームも一定数存在します。ほとんどのゲームでは、GeForce RTX 4060 Ti (8GB と 16GB) の両方のバージョンで最高設定のプレイができ、同じ性能を発揮します。

PC プラットフォームの利点は、そのオープン性、構成可能性、アップグレード可能性です。そのため、GeForce RTX 4060 Ti では 2 つのメモリ構成を提供します。追加の VRAM が必要な方に、7 月に提供が開始されます。

あらゆるゲーマーのための GPU

GeForce RTX 4060 ファミリの発売により、3 つの主要なゲーム解像度のそれぞれに最適化されたグラフィックス カードが用意されます。NVIDIA DLSS 3NVIDIA ReflexNVIDIA G-SYNCNVIDIA BroadcastRTX Remix などのゲーム拡張技術によってサポートされ、最高の電力効率で、クラス最高の体験を提供します。

GeForce RTX グラフィックス カードの能力をフルに活用するすべての新しいゲームやアプリに関する最新ニュースについては、GeForce.com にご注目ください。