Una Mirada Más Profunda al VRAM en las Tarjetas Gráficas GeForce RTX Serie 40

Por Andrew Burnes el 18 de mayo de 2023 | Featured Stories GeForce RTX GPUs Hardware NVIDIA RTX

Recibimos muchas preguntas sobre la memoria gráfica, también conocida como búfer de cuadros, memoria de video o "VRAM", por lo que, con la presentación de nuestra nueva familia de tarjetas gráficas GeForce RTX 4060, queríamos compartir algunas ideas para que los jugadores puedan tomar las mejores decisiones de compra para sus necesidades de juego.

¿Qué es VRAM?

VRAM es una memoria de alta velocidad ubicada en su tarjeta gráfica. Es un componente de un subsistema de memoria más grande que ayuda a garantizar que tu GPU tenga acceso a los datos que necesita para procesar y mostrar imágenes sin problemas.

En este artículo, describiremos las innovaciones del subsistema de memoria en nuestra arquitectura de GPU Ada Lovelace de última generación, así como también cómo la velocidad y el tamaño del caché de GPU y la VRAM afectan el rendimiento y la experiencia de juego.

Subsistema de memoria de las tarjetas gráficas GeForce RTX Serie 40: mejora del rendimiento y la eficiencia

Los juegos modernos son exhibiciones gráficas y sus tamaños de instalación ahora pueden superar los 100 GB. El acceso a esta enorme cantidad de datos ocurre a diferentes velocidades, determinadas por las especificaciones de la GPU y en cierta medida, por los otros componentes de tu sistema.

En las tarjetas gráficas GeForce RTX Serie 40, las nuevas innovaciones aceleran el proceso para disfrutar de juegos fluidos y velocidades de cuadro más rápidas, lo que lo ayuda a evitar la transmisión de texturas u otros contratiempos.

La importancia del caché

Las GPUs incluyen cachés de memoria de alta velocidad que están cerca de los núcleos de procesamiento de la GPU, que almacenan datos que probablemente se necesiten. Si la GPU puede recuperar los datos de los cachés, en lugar de solicitarlos desde la VRAM (más lejos) o la RAM del sistema (aún más lejos), se accederá a los datos y se procesarán más rápido, aumentando el rendimiento y la fluidez del juego, reduciendo el consumo de energía.

Las GPUs GeForce cuentan con un caché de nivel 1 (L1) (el caché más cercano y rápido) en cada multiprocesador de transmisión (SM), hasta doce de los cuales se pueden encontrar en cada clúster de procesamiento de gráficos (GPC) de GeForce RTX Serie 40. A esto le sigue una caché compartida de nivel 2 (L2) más grande y rápida a la que se puede acceder rápidamente con una latencia mínima.

Acceder a cada nivel de caché incurre en un golpe de latencia, con la compensación de una mayor capacidad. Al diseñar nuestras GPUs GeForce RTX Serie 40, descubrimos que un caché L2 única y grande es más rápida y eficiente que otras alternativas, como las que cuentan con una caché L2 pequeña y una caché L3 grande y de acceso más lento.

Las GPUs GeForce de la generación anterior tenían cachés L2 mucho más pequeñas, lo que resultó en un menor rendimiento y eficiencia en comparación con las GPUs de GeForce RTX Serie 40 de hoy.

Durante el uso, la GPU primero busca datos en la memoria caché de datos L1 dentro del SM, si los datos se encuentran en L1, no es necesario acceder a la memoria caché de datos L2. Si no se encuentran datos en L1, se denomina "falta de memoria caché" y la búsqueda continúa en la memoria caché L2. Si se encuentran datos en L2, eso se denomina "golpe de caché" de L2 (consulte los indicadores "H" en el diagrama anterior), y los datos se proporcionan a L1 y luego a los núcleos de procesamiento.

Si no se encuentran datos en la caché L2, una "falla de caché" L2, la GPU ahora intenta obtener los datos de la VRAM. Puede ver una cantidad de errores de caché L2 en el diagrama anterior que representa nuestro subsistema de memoria de arquitectura anterior, lo que provoca una cantidad de accesos al VRAM.

Si faltan datos en la VRAM, la GPU los solicita desde la memoria de su sistema. Si los datos no están en la memoria del sistema, normalmente se pueden cargar en la memoria del sistema desde un dispositivo de almacenamiento como un SSD o un disco duro. Luego, los datos se copian en VRAM, L2, L1 y en última instancia, se envían a los núcleos de procesamiento. Ten en cuenta que existen diferentes estrategias basadas en hardware y software para mantener los datos más útiles y reutilizados presentes en las cachés.

Cada operación adicional de lectura o escritura de datos a través de la jerarquía de la memoria ralentiza el rendimiento y utiliza más energía, por lo que, al aumentar nuestra tasa de aciertos de caché, aumentamos la velocidad de cuadros y la eficiencia.

En comparación con las GPUs de la generación anterior con una interfaz de memoria de 128 bits, el subsistema de memoria de la nueva arquitectura NVIDIA Ada Lovelace aumenta el tamaño de la memoria caché L2 en 16X, lo que aumenta considerablemente la tasa de aciertos de la memoria caché. En los ejemplos anteriores, que representan GPUs de 128 bits de Ada y arquitecturas de generaciones anteriores, la tasa de aciertos es mucho mayor con Ada. Además, el ancho de banda de caché L2 en las GPUs Ada se ha incrementado significativamente en comparación con las GPUs anteriores. Esto permite que se transfieran más datos entre los núcleos y el caché L2 lo más rápido posible.

Como se muestra en el siguiente diagrama, los ingenieros de NVIDIA probaron el RTX 4060 Ti con su caché L2 de 32 MB contra una versión de prueba especial del RTX 4060 Ti usando solo un L2 de 2 MB, que representa el tamaño de caché L2 de las GPUs de 128 bits de la generación anterior (donde Se vincularon 512 KB de caché L2 a cada controlador de memoria de 32 bits).

En pruebas con una variedad de juegos y puntos de referencia sintéticos, el caché L2 de 32 MB redujo el tráfico del bus de memoria en un poco más del 50% en promedio en comparación con el rendimiento de un caché L2 de 2 MB. Ve los accesos reducidos a VRAM en el diagrama del subsistema de memoria Ada anterior.

Esta reducción del tráfico del 50% permite que la GPU use su ancho de banda de memoria el doble de eficientemente. Como resultado, en este escenario, aislando el rendimiento de la memoria, una GPU Ada con 288 GB/s de ancho de banda de memoria máximo tendría un rendimiento similar a una GPU Ampere con 554 GB/s de ancho de banda de memoria máximo. En una variedad de juegos y pruebas sintéticas, las tasas de aciertos mucho mayores mejoran las tasas de fotogramas hasta en un 34%.

El ancho del bus de memoria es un aspecto de un subsistema de memoria

Históricamente, el ancho del bus de memoria se ha utilizado como una métrica importante para determinar la clase de velocidad y rendimiento de una nueva GPU. Sin embargo, el ancho del bus por sí mismo no es un indicador suficiente del rendimiento del subsistema de memoria. En cambio, es útil comprender el diseño más amplio del subsistema de memoria y su impacto general en el rendimiento de los juegos.

Debido a los avances en la arquitectura de Ada, incluidos los nuevos núcleos RT y Tensor, velocidades de reloj más altas, el nuevo motor OFA y las capacidades DLSS 3 de Ada, la GeForce RTX 4060 Ti es más rápida que las generaciones anteriores, la GeForce RTX 3060 de 256 bits. Tarjetas gráficas Ti y RTX 2060 SUPER, todo mientras usa menos energía.

En conjunto, las especificaciones técnicas ofrecen una excelente GPU de clase 60 con alto rendimiento para los jugadores de 1080p, que representan la mayoría de los usuarios de Steam.

La cantidad de VRAM depende de la arquitectura de la GPU

Los jugadores a menudo se preguntan por qué una tarjeta gráfica tiene una cierta cantidad de VRAM.

La memoria GDDR6X y GDDR6 de generación actual se suministra en densidades de 8 Gb (1 GB de datos) y 16 Gb (2 GB de datos) por chip. Cada chip utiliza dos canales separados de 16 bits para conectarse a un único controlador de memoria Ada de 32 bits. Entonces, una GPU de 128 bits puede admitir 4 chips de memoria y una GPU de 384 bits puede admitir 12 chips (calculados como el ancho del bus dividido por 32).

Los chips de mayor capacidad son más costosos de fabricar, por lo que se requiere un equilibrio para optimizar los precios.

En nuestras nuevas GPUs GeForce RTX 4060 Ti con bus de memoria de 128 bits, el modelo de 8 GB usa cuatro chips de memoria GDDR6 de 16 Gb y el modelo de 16 GB usa ocho chips de 16 Gb. No es posible mezclar densidades, lo que impide la creación de un modelo de 12 GB, por ejemplo. Por eso también la GeForce RTX 4060 Ti tiene una opción con más memoria (16 GB) que las GeForce RTX 4070 Ti y 4070, que tienen interfaces de memoria de 192 bits y por tanto 12 GB de VRAM.

Nuestras GPUs de clase 60 se han diseñado cuidadosamente para ofrecer la combinación óptima de rendimiento, precio y eficiencia energética, por lo que elegimos una interfaz de memoria de 128 bits.

En resumen, las GPUs de mayor capacidad con el mismo ancho de bus siempre tienen el doble de memoria.

¿Las herramientas de visualización en pantalla (OSD) informan el uso de VRAM con precisión?

Los jugadores a menudo citan la métrica de "uso de VRAM" en las herramientas de medición de rendimiento de visualización en pantalla. Pero este número no es del todo exacto, ya que todos los juegos y motores de juegos funcionan de manera diferente.

En la mayoría de los casos, un juego asignará VRAM por sí mismo y le dirá a tu sistema: "Lo quiero en caso de que lo necesite". Pero el hecho de que contenga la VRAM no significa que realmente la necesite toda. De hecho, los juegos a menudo solicitarán más memoria si está disponible.

Debido a la forma en que funciona la memoria, es imposible saber con precisión qué se está utilizando activamente a menos que seas el desarrollador del juego con acceso a las herramientas de desarrollo. Algunos juegos ofrecen una guía en el menú de opciones, pero incluso eso no siempre es preciso.

La cantidad de VRAM que realmente se necesita variará en tiempo real según la escena y lo que esté viendo el jugador.

Además, el comportamiento de los juegos puede variar cuando la VRAM se utiliza realmente al máximo. En algunos, la memoria se purga, lo que provoca un notable problema de rendimiento, mientras que la escena actual se vuelve a cargar en la memoria. En otros, solo se cargarán y descargarán datos seleccionados, sin ningún impacto visible. En algunos casos, los nuevos activos pueden cargarse más lentamente, ya que ahora se obtienen desde la RAM del sistema.

Para los jugadores, jugar es la única forma de determinar verdaderamente el comportamiento de un juego. Además, los jugadores pueden consultar las medidas de velocidad de fotogramas "1% baja", que pueden ayudar a analizar la experiencia de juego real. La métrica 1% baja: se encuentra en la superposición de rendimiento y los registros de la aplicación gratuita NVIDIA FrameView, así como en otras medidas populares herramientas: mide el promedio del 1% más lento de los fotogramas durante un cierto período de tiempo.

Automatiza la selección de configuración con GeForce Experience y descarga los últimos parches

Recientemente, algunos juegos nuevos han lanzado parches para administrar mejor el uso de la memoria, sin afectar la calidad visual. Asegúrese de obtener los parches más recientes para los nuevos lanzamientos, ya que suelen corregir errores y optimizar el rendimiento poco después del lanzamiento.

Además, GeForce Experiencia es compatible con la mayoría de los juegos nuevos y ofrece configuraciones optimizadas para cada GPU GeForce y configuración de VRAM compatibles, brindando a los jugadores la mejor experiencia posible al equilibrar el rendimiento y la calidad de imagen.

Si no estás familiarizado con la jerga de las opciones de juego y solo quiere disfrutar de tus juegos desde el momento en que los cargas, GeForce Experience puede ajustar automáticamente la configuración del juego para una gran experiencia cada vez.

Las tecnologías de NVIDIA pueden ayudar a los desarrolladores a reducir el uso del VRAM

Los juegos son más ricos y detallados que nunca, lo que requiere esas instalaciones de más de 100 GB. Para ayudar a los desarrolladores a optimizar el uso de la memoria, NVIDIA tiene varias herramientas y SDK gratuitos para desarrolladores, que incluyen:

Estas son solo algunas de las herramientas y tecnologías que NVIDIA proporciona gratuitamente para ayudar a los desarrolladores a optimizar sus juegos para todas las GPUs, plataformas y configuraciones de memoria.


Algunas aplicaciones pueden usar más VRAM

Más allá de los juegos, las tarjetas gráficas GeForce RTX se utilizan en todo el mundo para animación 3D, edición de video, gráficos en movimiento, fotografía, diseño gráfico, visualización arquitectónica, STEM, transmisión e IA. Algunas de las aplicaciones utilizadas en estas industrias pueden beneficiarse de VRAM adicional. Por ejemplo, al editar líneas de tiempo de 4K u 8K en Premiere o al crear una escena arquitectónica masiva en D5 Render.

En el lado de los juegos, las resoluciones altas generalmente también requieren un aumento en la VRAM. Ocasionalmente, un juego puede lanzarse con un paquete de textura extragrande opcional y asignar más VRAM. Y hay una lista de juegos que funcionan mejor con la configuración predeterminada "Alta" en el 4060 Ti (8 GB) y con la configuración "Ultra" maximizada en el 4060 Ti (16 GB). En la mayoría de los juegos, ambas versiones de GeForce RTX 4060 Ti (8 GB y 16 GB) pueden jugar con la configuración máxima y ofrecerán el mismo rendimiento..

El beneficio de la plataforma de PC es su apertura, capacidad de configuración y actualización, razón por la cual ofrecemos las dos configuraciones de memoria para GeForce RTX 4060 Ti; si quieres esa VRAM adicional, estará disponible en julio.

Una GPU para cada jugador

Tras el lanzamiento de la familia GeForce RTX 4060, habrá tarjetas gráficas optimizadas para cada una de las tres resoluciones de juego principales. Independientemente de cómo juegues, todas las GPUs GeForce RTX Serie 40 brindarán la mejor experiencia de su clase, con una eficiencia energética líder, respaldada por una amplia gama de tecnologías de mejora del juego, que incluyen NVIDIA DLSS 3, NVIDIA Reflex, NVIDIA G-SYNC, NVIDIA Broadcast y RTX Remix.

Para conocer las últimas noticias sobre todos los nuevos juegos y aplicaciones que aprovechan todas las capacidades de las tarjetas gráficas GeForce RTX, mantente atento a GeForce.com.