La arquitectura Ada Lovelace de las GPU GeForce RTX 40 de NVIDIA, explicada

Ada Lovelace era inteligente, ambiciosa, apasionada, curiosa… A mediados del siglo pasado, cien años después de su muerte, varios investigadores descubrieron su trabajo y una colección de aportaciones que décadas más tarde resultaron muy valiosas para el desarrollo de la informática y la programación. La relevancia histórica de esta visionaria es indudable, de ahí que NVIDIA haya decidido homenajearla poniendo su nombre a la arquitectura de su familia de GPU GeForce RTX 40.

El propósito de este artículo es indagar en las muchas novedades introducidas por los ingenieros de NVIDIA en estos nuevos procesadores gráficos, pero antes de meternos en harina merece la pena que recapitulemos. Las primeras tarjetas gráficas pertenecientes a la serie GeForce RTX 40 que llegarán a las tiendas serán la RTX 4090 y las RTX 4080. Y es que, sorprendentemente, NVIDIA ha decidido lanzar dos versiones diferentes de esta última solución gráfica.

Una de las RTX 4080 incorpora 16 GB de VRAM de tipo GDDR6X, y la otra 12 GB de este mismo tipo de memoria. No obstante, las diferencias entre estas dos tarjetas gráficas no acaban aquí. Y es que su GPU no rinde igual, y su bus de memoria es diferente. En la tabla que publicamos debajo de estas líneas recogemos estas diferencias. Otro dato interesante más: Samsung ya no fabrica estas GPU para NVIDIA. Las RTX 40 las produce TSMC utilizando su nodo litográfico de 4 nm.

Las GeForce RTX 4090 y 4080 frente a las GeForce RTX 3090 Ti y 3080 Ti

nvidia geforce rtx 4090

nvidia geforce rtx 3090 ti

nvidia geforce rtx 4080

NVIDIA GEFORCE RTX 3080 TI

arquitectura

Ada Lovelace

Ampere

Ada Lovelace

Ampere

transistores

76 000 millones

28 300 millones

No disponible

28 300 millones

fotolitografía

4 nm TSMC

8 nm Samsung (tecnología de integración personalizada para NVIDIA)

4 nm TSMC

8 nm Samsung (tecnología de integración personalizada para NVIDIA)

núcleos cuda

16 384

10 752

9728 (16 GB)

7680 (12 GB)

10 240

núcleos rt

128 (3ª generación)

84 (2ª generación)

76 (3ª generación)

80 (2ª generación)

núcleos tensor

512 (4ª generación)

336 (3ª generación)

304 (4ª generación)

320 (3ª generación)

unidades de cálculo (cu)

128

84

76

80

caché de nivel 1

128 Kbytes (por SM)

128 Kbytes (por SM)

128 Kbytes (por SM)

128 Kbytes (por SM)

frecuencia de reloj máxima

2,52 GHz

1,86 GHz

2,51 GHz (16 GB)

2,61 GHz (12 GB)

1,67 GHz

memoria dedicada

24 GB GDDR6X

24 GB GDDR6X

16 GB GDDR6X o 12 GB GDDR6X

12 GB GDDR6X

bus de memoria

384 bits

384 bits

256 bits (16 GB)

192 bits (12 GB)

384 bits

velocidad de transferencia de la memoria

1008 GB/s

1008 GB/s

735 GB/s (16 GB)

912 GB/s

shader tflops (fp32)

90

40

49

34

operaciones de rasterización

192 ROP/s

112 ROP/s

96 ROP/s

112 ROP/s

unidades de mapas de texturas

512

336

304

320

tasa de texturas

1290 Gtexeles/s

625 Gtexeles/s

761,5 Gtexeles/s

532,8 Gtexeles/s

tasa de píxeles

483,8 Gpíxeles/s

208,3 Gpíxeles/s

240,5 Gpíxeles/s

186,5 Gpíxeles/s

directx 12 ultimate

interfaz pci express

PCIe 4.0

PCIe 4.0

PCIe 4.0

PCIe 4.0

revisión hdmi

2.1

2.1

2.1

2.1

revisión displayport

1.4a

1.4a

1.4a

1.4a

dlss

3

2

3

2

ranuras ocupadas

3

3

3 (16 GB)

2 o 3 (12 GB)

2

temperatura máxima de la gpu

90 ºC

92 ºC

90 ºC

93 ºC

consumo medio

450 vatios

450 vatios

320 vatios

350 vatios

potencia recomendada para la fuente de alimentación

850 vatios

850 vatios

750 vatios

750 vatios

conectores de alimentación

3 x 8 pines o 1 cable PCIe Gen 5 de 450 vatios o más

3 x 8 pines

16 GB: 3 x 8 pines o 1 cable PCIe Gen 5 de 450 vatios o más

12 GB: 2 x 8 pines o 1 cable PCIe Gen 5 de 300 vatios o más

2 x 8 pines

precio

Desde 1959 euros

1576,84 euros

Desde 1469 euros (16 GB)

Desde 1099 euros (12 GB)

1563,76 euros

SEE ALSO  Bombshell at MediaMarkt: the cheapest Google Pixel drops to its all-time low price

La arquitectura Ada Lovelace de las GeForce RTX 40, bajo nuestra lupa

NVIDIA no se ha andado con delicadezas a la hora de comunicar qué representa para esta compañía la llegada de la arquitectura Ada Lovelace: un salto gigantesco en términos de rendimiento y eficiencia. Suena bien, de eso no cabe la menor duda, pero dado que esta afirmación procede de una parte interesada lo más prudente es que la recojamos con cierto escepticismo hasta que tengamos la oportunidad de analizar a fondo una de las nuevas tarjetas gráficas GeForce RTX 40.

En cualquier caso, más allá de la apuesta por la tecnología de integración de 4 nm de TSMC en detrimento de la litografía de 8 nm de Samsung utilizada en la fabricación de los procesadores gráficos GeForce RTX 30, las nuevas GPU de NVIDIA nos entregan una nueva generación de núcleos RT y núcleos Tensor, así como más núcleos CUDA que nunca. También llegan de la mano de frecuencias de reloj más altas e implementan tecnologías de procesado de la , liberando de este estrés a otras unidades funcionales de la GPU que no son capaces de llevar a cabo este trabajo de una forma tan eficiente. Son en gran medida responsables de que las tarjetas gráficas de las series GeForce RTX 20, 30 y 40 sean capaces de ofrecernos ray tracing en tiempo real.

NVIDIA asegura que sus núcleos RT de 3ª generación duplican el rendimiento de sus predecesores al procesar las intersecciones de los triángulos

NVIDIA asegura que sus núcleos RT de 3ª generación duplican el rendimiento de sus predecesores al procesar las intersecciones de los triángulos que intervienen en el renderizado de cada fotograma. Además, estos núcleos incorporan dos nuevos motores conocidos como Opacity Micromap (OMM), o ‘micromapa de opacidades’, y Displaced Micro-Mesh (DMM), que podemos traducir como ‘micromalla de desplazamientos’.

Dejando a un lado los detalles más complejos, el motor OMM tiene el propósito de acelerar el renderizado mediante trazado de rayos de las texturas empleadas en la vegetación, las vallas y las partículas. El procesado de estos tres elementos representa un gran esfuerzo para la GPU, y el objetivo de este motor es, precisamente, aliviarlo. Por otro lado, el motor DMM se encarga de procesar las escenas que contienen una gran complejidad geométrica para hacer posible el renderizado en tiempo real mediante trazado de rayos.

Los núcleos Tensor evolucionan: llega la 4ª generación

Al igual que los núcleos RT, los núcleos Tensor son unidades funcionales de hardware especializadas en resolver operaciones matriciales que admiten una gran paralelización, pero estos últimos han sido diseñados expresamente para ejecutar de forma eficiente las operaciones que requieren los algoritmos de aprendizaje profundo y la computación de alto rendimiento. Los núcleos Tensor ejercen un rol esencial en la tecnología DLSS (Deep Learning Super Sampling), de ahí que tengan un claro protagonismo en la reconstrucción de la .

Según NVIDIA, la 4ª iteración de estos núcleos es mucho más rápida que su predecesora, logrando multiplicar su rendimiento por cinco en determinadas circunstancias. Un apunte interesante: el motor de transformación FP8 utilizado por primera vez por esta marca en estos núcleos para llevar a cabo cálculos con números en coma flotante de 8 bits procede de la GPU H100 Tensor Core diseñada por NVIDIA expresamente para los centros de datos que trabajan con algoritmos de inteligencia artificial.

SEE ALSO  I have changed this WhatsApp setting and now I can read messages without my contacts knowing

Estas dos tecnologías nos prometen marcar la diferencia en las GeForce RTX 40

El esfuerzo computacional que conlleva el renderizado en tiempo real de un fotograma mediante trazado de rayos es descomunal. Esta es la razón por la que cada nueva generación de procesadores gráficos no puede conformarse únicamente con introducir una cantidad mayor de las mismas unidades funcionales presentes en sus predecesoras.

La fuerza bruta importa, pero no es suficiente en absoluto. También es imprescindible elaborar estrategias que consigan abordar los procesos involucrados en el renderizado de una forma más inteligente. Más ingeniosa.

Las tecnologías ‘Shader Execution Reordering’ y ‘Ada Optical Flow Accelerator’ persiguen incrementar el rendimiento de la GPU abordando las tareas involucradas en el renderizado de la forma más eficiente posible

Este es el enfoque que pone sobre la mesa NVIDIA con las GPU GeForce RTX 40, y a nosotros nos parece la opción correcta. Precisamente las dos tecnologías en las que estamos a punto de indagar, conocidas como Shader Execution Reordering (SER) y Ada Optical Flow Accelerator, persiguen llevar a la práctica este propósito: incrementar el rendimiento de la GPU abordando las tareas involucradas en el renderizado que desencadenan un mayor esfuerzo computacional de la forma más eficiente posible.

Rtx40stack

La tecnología Shader Execution Reordering (SER) se responsabiliza de optimizar los recursos de la GPU reorganizando en tiempo real y de una manera inteligente los sombreadores (shaders), que son los programas que llevan a cabo los cálculos necesarios para resolver los atributos esenciales del fotograma que se está renderizando, como la iluminación o el color.

De alguna forma esta técnica lleva a cabo un procedimiento similar a la ejecución superescalar de las CPU, lo que, según NVIDIA, permite a la tecnología SER multiplicar por tres el rendimiento del renderizado mediante trazado de rayos, incrementando, por el camino, la cadencia de imágenes por segundo en hasta un 25%. No pinta nada mal.

Rtx40shaders

Por otro lado, la tecnología Ada Optical Flow Accelerator tiene el propósito de predecir qué objetos se van a desplazar entre dos fotogramas consecutivos para entregar esa información a la red neuronal convolucional involucrada en la reconstrucción de la . Su estrategia es similar a la que emplean otros fabricantes de hardware gráfico: la resolución de renderizado es inferior a la resolución de salida que finalmente entrega la tarjeta gráfica a nuestro monitor.

De esta forma el estrés al que se ve sometido el procesador gráfico es menor, pero a cambio es necesario recurrir a un procedimiento que se encargue de escalar cada uno de los fotogramas desde la resolución de renderizado hasta la resolución final. Y, además, debe hacerlo de una forma eficiente porque, de lo contrario, el esfuerzo que hemos evitado en la etapa anterior podría aparecer en esta fase de la generación de las imágenes.

Esta es la fase en la que entra en acción la inteligencia artificial que ha puesto a punto NVIDIA. Y los núcleos Tensor de la GPU. El motor gráfico renderiza las imágenes a una resolución inferior a la que esperamos obtener, y después la tecnología DLSS escala cada fotograma a la resolución final aplicando una técnica de muestreo mediante aprendizaje profundo para intentar recuperar el máximo nivel de detalle posible.

Dlss3

En las imágenes que hemos utilizado para ilustrar este artículo podemos ver que el procedimiento implementado en DLSS 3 es más complejo que el utilizado por DLSS 2. De hecho, la nueva técnica de reconstrucción de la imagen de NVIDIA aprovecha la presencia de los núcleos Tensor de cuarta generación de las GPU GeForce RTX 40 para hacer posible la ejecución de un nuevo algoritmo de reconstrucción llamado Optical Multi Frame Generation.

‘Optical Multi Frame Generation’ analiza dos imágenes secuenciales del juego en tiempo real y calcula la información del vector que describe el movimiento de todos los objetos

En vez de abordar la reconstrucción de cada fotograma trabajando con píxeles aislados, que es lo que hace DLSS 2, esta estrategia genera fotogramas completos. Para hacerlo analiza dos imágenes secuenciales del juego en tiempo real y calcula la información del vector que describe el movimiento de todos los objetos que aparecen en esos fotogramas, pero que no son procesados por el motor del propio juego.

Rtx40rt

Según NVIDIA esta técnica de reconstrucción de la imagen consigue multiplicar por cuatro la cadencia de imágenes por segundo que nos entrega DLSS 2. Y, lo que también es muy importante, minimiza las aberraciones y las anomalías visuales que aparecen en algunos juegos al utilizar la anterior revisión de esta estrategia de reconstrucción de la imagen. Suena muy bien, así que estamos deseando probarla para comprobar si su rendimiento es tan atractivo como nos está prometiendo NVIDIA.

El procesado de los fotogramas en alta resolución y los vectores de movimiento se alimentan de una red neuronal convolucional

Un apunte interesante más: el procesado de los fotogramas en alta resolución y los vectores de movimiento se alimentan, según nos explica NVIDIA, de una red neuronal convolucional que analiza toda esta información y genera en tiempo real un frame adicional por cada fotograma procesado por el motor del juego.

Para concluir, ahí va otra promesa de esta compañía: DLSS 3 puede trabajar en tándem con Unity y Unreal Engine, y durante los próximos meses llegará a más de 35 juegos. De hecho, es posible habilitar esta técnica en poco tiempo en aquellos títulos que ya implementan DLSS 2 o Streamline.