Rick-Brick
NVIDIA Vera Rubin — Infraestructura de IA de próxima generación que reduce drásticamente el costo de inferencia

NVIDIA Vera Rubin — Infraestructura de IA de próxima generación que reduce drásticamente el costo de inferencia

51min de lectura

Introducción: ¿Por qué el costo de inferencia es un problema ahora?

A medida que avanzamos en 2026, el debate en torno a la IA está cambiando rápidamente de “rendimiento del modelo” a “economía del costo de inferencia”. La capacidad de los modelos de lenguaje grandes (LLM) ya no está en duda, pero el “costo de inferencia por token” se ha convertido en un obstáculo para la implementación empresarial real.

Particularmente, la IA de agentes requiere cientos o miles de llamadas a LLM para completar una sola tarea. Esto incurre en costos de un orden de magnitud diferente a las consultas simples, lo que dificulta la escalabilidad.

En la conferencia magistral GTC 2026 en marzo de 2026, el CEO de NVIDIA, Jensen Huang, resumió esta situación: “Si tienen más capacidad, pueden generar más tokens y aumentar los ingresos. Con las aplicaciones de IA de agentes que ahora generan otros agentes para realizar tareas sucesivas, el número de tokens generados está explotando”. Hizo hincapié en la importancia de una infraestructura de inferencia rápida y de bajo costo.

La respuesta de NVIDIA a esto es la plataforma Vera Rubin. Revelada por primera vez en CES 2026 (enero de 2026) y detallada en GTC 2026 (marzo de 2026), esta infraestructura de IA de próxima generación promete reducir el costo de inferencia hasta 10 veces en comparación con Blackwell, atrayendo la atención de la industria.

En este artículo, profundizaremos técnicamente en la arquitectura de Vera Rubin, exploraremos por qué se puede lograr tal reducción de costos y consideraremos su impacto en el futuro de la IA de agentes.


¿Qué es Vera Rubin?: Un “supercomputador de IA” con 7 chips integrados

Vera Rubin no es un solo chip GPU, sino una plataforma de IA integrada diseñada de forma extremadamente colaborativa (co-design) con 7 tipos de chips especializados. NVIDIA lo llama “Extreme Co-Design”. En GTC 2026, NVIDIA confirmó oficialmente la adquisición de Groq en diciembre de 2025 por aproximadamente $20 mil millones, y el Groq 3 LPU se añadió a la plataforma como el séptimo chip.

Los 7 chips que componen el sistema son los siguientes:

ChipRol
Vera CPUCPU personalizada para IA (88 núcleos Olympus)
Rubin GPUNúcleo de cómputo de IA (50 PFLOPS NVFP4)
NVLink 6 SwitchComunicación de alta velocidad entre GPUs (3.6 TB/s)
ConnectX-9 SuperNICProcesamiento de red
BlueField-4 DPUProcesamiento de datos y memoria de contexto de inferencia
Spectrum-6 Ethernet SwitchComunicación Ethernet
Groq 3 LPUAcelerador de inferencia de baja latencia (añadido recientemente)

Todo este sistema se integra a nivel de rack y se ofrece en el factor de forma Vera Rubin NVL72. Esta configuración integra 72 GPUs Rubin y 36 CPUs Vera en un solo rack. Para implementaciones aún más grandes, también se ofrece una configuración a escala de 40 racks llamada Vera Rubin POD, que proporciona una capacidad de cómputo de 60 exaFLOPS.


Vera CPU: Un procesador propio diseñado para IA

Uno de los puntos de gran diferencia de Vera Rubin con respecto a las plataformas anteriores es la adopción de la CPU personalizada “Vera” diseñada por NVIDIA.

Vera está equipada con 88 núcleos Olympus. Olympus es un núcleo diseñado por NVIDIA basado en el conjunto de instrucciones ARMv9.2, optimizado específicamente para cargas de trabajo de centros de datos de IA. Cada núcleo puede procesar 2 hilos en paralelo mediante la tecnología “Spatial Multithreading”, proporcionando una capacidad de procesamiento total de 176 hilos. La caché L3 se ha incrementado en un 40% a 162 MB, y el número de transistores ha alcanzado los 227 mil millones, 2.2 veces más que la generación anterior.

Cabe destacar el soporte para precisión FP8. Vera CPU es la primera CPU de la industria en admitir FP8 de forma nativa, lo que permite el procesamiento unificado de cargas de trabajo de IA completas en formatos numéricos de baja precisión.

En términos de memoria, cuenta con hasta 1.5 TB de memoria SOCAMM LPDDR5X y ofrece un ancho de banda de memoria de 1.2 TB/s. Al expandir el ancho del bus de memoria a 1024 bits y aumentar la velocidad a 9600 MT/s, se logra un ancho de banda 2.5 veces mayor que la generación anterior. Aún más importante es la conexión con la GPU Rubin. Mediante NVLink-C2C de segunda generación (Chip-to-Chip), se logra un ancho de banda coherente de 1.8 TB/s entre CPU y GPU. Esto es 7 veces más rápido que PCIe Gen 6.

¿Por qué se necesita una CPU personalizada?

Los servidores de IA tradicionales han utilizado CPUs de propósito general, pero las CPUs a menudo se convierten en cuellos de botella en la inferencia de LLM. Esto se debe a que el ancho de banda de memoria y la velocidad de conexión de la CPU host no pueden igualar la capacidad de procesamiento de la GPU.

Reconociendo que la inferencia de LLM está limitada por el ancho de banda de memoria y la interconexión, NVIDIA optimizó el sistema completo mediante el diseño personalizado de la CPU. El enlace coherente de alta velocidad entre CPU y GPU minimiza la sobrecarga de transferencia de datos y mejora la utilización de la GPU.


Rubin GPU: El motor de cómputo de próxima generación especializado en inferencia

La GPU Rubin incorpora numerosas innovaciones especializadas en la inferencia de IA.

Especificaciones principales

ElementoValor
Rendimiento de inferencia NVFP450 PFLOPS (5 veces Blackwell)
Rendimiento de entrenamiento NVFP435 PFLOPS (3.5 veces Blackwell)
Memoria HBM4288 GB (por unidad)
Ancho de banda de memoria HBM422 TB/s
Ancho de banda NVLink 63.6 TB/s (por GPU)
Número de transistores336 mil millones

Particularmente destacable es la adopción de HBM4. En comparación con la generación anterior, HBM3, el ancho de banda de memoria ha mejorado aproximadamente 2.8 veces, abordando directamente el problema de que la inferencia de LLM está limitada por el ancho de banda de memoria.

NVFP4 y el motor Transformer de tercera generación

La GPU Rubin está equipada con un motor Transformer de tercera generación que aprovecha un nuevo formato numérico de baja precisión llamado NVFP4. NVFP4 tiene una densidad aritmética aún mayor que NVFP8 adoptado por Blackwell, logrando una mejora significativa en el rendimiento manteniendo la precisión. NVIDIA logró una mejora en el rendimiento efectivo que va más allá del simple aumento de FLOPS al integrar profundamente esta ejecución de baja precisión tanto en la arquitectura como en la pila de software.


En la inferencia de LLM, especialmente en modelos Mixture-of-Experts (MoE) y entornos multi-GPU, el ancho de banda de comunicación entre GPUs determina el rendimiento.

NVLink 6 duplica el ancho de banda en comparación con la generación anterior (NVLink 5).

MétricaNVLink 5NVLink 6
Ancho de banda por switch1,800 GB/s3,600 GB/s
Ancho de banda por GPUAprox. 1.8 TB/s3.6 TB/s
Rack NVL72 completo260 TB/s

El ancho de banda interno de 260 TB/s proporcionado por el rack NVL72 permite la inferencia eficiente de modelos MoE a gran escala.


Groq 3 LPU: Acelerador de inferencia de baja latencia

Una de las mayores sorpresas de GTC 2026 fue la integración de la tecnología LPU (Language Processing Unit) de Groq en la plataforma Vera Rubin. NVIDIA adquirió Groq el 24 de diciembre de 2025 por aproximadamente $20 mil millones, asegurando al personal de alto nivel y obteniendo una licencia no exclusiva de la tecnología LPU de Groq.

Reparto de roles entre GPU y LPU

En el sistema Vera Rubin, Rubin y Groq se reparten el proceso de inferencia.

  • Rubin GPU: Responsable del procesamiento Prefill y la atención de decodificación.
  • Groq 3 LPU: Responsable de la ejecución de la red Feed-Forward (FFN).

Este modelo de división del trabajo permite que cada chip se concentre en el procesamiento para el que es más adecuado.

Especificaciones del rack Groq 3 LPX

El rack Groq 3 LPX anunciado en GTC 2026 está equipado con 256 LPU.

ElementoValor
Capacidad SRAM (por chip)500 MB
Ancho de banda SRAM (por chip)150 TB/s
Ancho de banda de escalado (por chip)2.5 TB/s
Capacidad total SRAM en chip (por rack)128 GB
Ancho de banda de escalado (por rack)640 TB/s

Groq 3 está diseñado priorizando el ancho de banda sobre la capacidad, con un ancho de banda de aproximadamente 80 TB/s por chip. Este diseño centrado en SRAM de alto ancho de banda permite una baja latencia en el procesamiento FFN.

Efecto de la integración

La combinación de Vera Rubin y Groq LPX permite que el rendimiento de inferencia de modelos de billones de parámetros aumente hasta 35 veces y que el rendimiento por megavatio se incremente 35 veces en comparación con la GPU Rubin sola. Esto se logra sin necesidad de cambios importantes en la plataforma CUDA, utilizando los LPU como aceleradores de decodificación altamente especializados.


Almacenamiento de memoria de contexto de inferencia: Especialización en IA de agentes

Una característica importante que demuestra que Vera Rubin está diseñada como “una base para la IA de agentes” es su plataforma de almacenamiento de memoria de contexto de inferencia.

Nueva jerarquía de memoria

NVIDIA utiliza BlueField-4 DPU para construir una nueva jerarquía de memoria entre las GPUs y el almacenamiento tradicional.

El rack de almacenamiento BlueField-4 STX funciona como una “memoria de contexto dedicada” para mantener la coherencia del contexto cuando los agentes de IA mantienen conversaciones multivuelta a gran escala. Al descargar los datos de caché KV al chip BlueField-4, los datos de caché se pueden compartir y reutilizar en toda la infraestructura de inferencia de IA, lo que aumenta el rendimiento de inferencia hasta 5 veces.

Impacto en la IA de agentes

La IA de agentes tiene patrones de cálculo fundamentalmente diferentes a los de las consultas simples.

Para una sola instrucción, se realizan docenas o cientos de llamadas a LLM, cada una con un contexto largo. El almacenamiento de memoria de contexto de inferencia mejora el rendimiento general y la eficiencia de costos de la IA de agentes al gestionar de manera eficiente esta caché KV.


El mecanismo de reducción de costos 10x: Una lectura precisa de las cifras

Es importante comprender con precisión bajo qué condiciones se logra la cifra de “reducción de 10x en el costo de inferencia” que afirma NVIDIA.

Factores clave de mejora

La reducción de 10x en el costo se logra como un efecto combinado de múltiples innovaciones tecnológicas.

Mejora del ancho de banda de memoria HBM4: Aprox. 2.8x
Mejora del rendimiento de NVLink 6: Aprox. 2x
Mejora del rendimiento del Tensor Core NVFP4: Aprox. 5x
Optimización del procesamiento FNN mediante la integración de Groq LPU: Factor adicional

Mejora drástica de la eficiencia energética

Jensen Huang presentó cifras impresionantes en la conferencia magistral: “Con la generación Blackwell, pudimos generar 22 millones de tokens por segundo desde un centro de datos de 1 GW. Con Vera Rubin, podemos generar 700 millones de tokens por segundo con la misma energía. Esto es una mejora de 350 veces en dos años”.

MétricaBlackwellVera RubinFactor de mejora
Tokens/segundo por 1 GW22 millones700 millonesAprox. 32x
Costo por token (contexto largo)EstándarHasta 1/10Hasta 10x
Rendimiento de inferencia/vatioEstándar10x10x
Número de GPUs de entrenamiento (MoE)Estándar1/44x de eficiencia

Expectativas realistas

Por otro lado, una evaluación realista es importante. La reducción de costos de 10x es un resultado de referencia en condiciones específicas de “contexto largo y salida larga”, y 2-3x de mejora en la inferencia de modelos densos de contexto corto es una expectativa realista.


Rack NVL72: Rendimiento del sistema completo

Vera Rubin NVL72 es un sistema a escala de rack donde se integran todos los componentes.

Resumen de especificaciones de NVL72

ElementoEspecificación
Configuración de GPU72 x Rubin GPU
Configuración de CPU36 x Vera CPU
Rendimiento total de inferencia NVFP43.6 ExaFLOPS
Capacidad total HBM420.7 TB
Ancho de banda total HBM41.6 PB/s (Petabytes por segundo)
Ancho de banda total NVLink 6260 TB/s

Vera Rubin POD: Implementación a escala de centro de datos

Además, para configuraciones aún más grandes, se ofrece Vera Rubin POD, que consta de 40 racks.

ElementoEspecificación
Número total de GPUs2,880
Rendimiento de cómputo total60 ExaFLOPS
Componentes de configuraciónMás de 1,300,000

El POD es la unidad básica de los centros de datos de próxima generación que NVIDIA denomina “fábricas de IA”.


Comparación con Blackwell: Evolución entre generaciones

Vera Rubin se sitúa después de Blackwell de NVIDIA. Resumimos las principales mejoras de cada generación.

ElementoBlackwellVera RubinFactor de mejora
Rendimiento de inferencia GPU (NVFP4)10 PFLOPS50 PFLOPS5x
Rendimiento de entrenamiento GPU10 PFLOPS35 PFLOPS3.5x
Ancho de banda entre GPUs1,800 GB/s3,600 GB/s2x
Generación HBMHBM3HBM4Aprox. 2.8x
CPUPropósito general/GraceVera (88 núcleos Olympus)
Inferencia de baja latenciaIntegración de Groq 3 LPU
Número de GPUs de entrenamiento (MoE)EstándarReducción a 1/44x
Costo por tokenEstándarHasta 1/10Hasta 10x

Cronograma de implementación y socios clave

Horario de entrega

NVIDIA planea comenzar la producción en masa y el envío de Vera Rubin a partir de la segunda mitad de 2026. En GTC 2026 (del 16 al 19 de marzo de 2026), se confirmó que Vera Rubin está en “estado de producción completa”.

Socios iniciales de implementación

Los siguientes socios han sido anunciados para ser los primeros en ofrecer servicios en la nube basados en Vera Rubin:

  • Hiperescaladores: AWS, Google Cloud, Microsoft Azure, Oracle Cloud Infrastructure (OCI)
  • Nubes especializadas: CoreWeave, Lambda, Nebius, Nscale

Jensen Huang declaró: “Los pedidos acumulados para Blackwell y Rubin superarán el billón de dólares a finales de 2027”, lo que indica que Vera Rubin se posiciona como un pilar fundamental en la inversión en centros de datos.


Desafíos técnicos y perspectivas futuras

Consumo de energía e inversión en centros de datos

Si bien el rack NVL72 tiene una capacidad de cómputo inmensa, su consumo de energía también es considerable. En 2026, se prevé que la inversión total en infraestructura de centros de datos de los hiperescaladores supere los 65 mil millones de dólares, y la implementación de Vera Rubin requerirá una inversión masiva en infraestructura de energía y refrigeración.

Desarrollo del ecosistema de software

Aunque NVIDIA afirma que la integración de Groq 3 LPU no requerirá cambios importantes en la plataforma CUDA, la optimización de la pila de software (bibliotecas CUDA, frameworks de inferencia) también es crucial. NVIDIA está avanzando en este aspecto con NIM (NVIDIA Inference Microservices).

Próxima generación “Vera Rubin Ultra”

En GTC 2026, se anticipó aún más la próxima generación Vera Rubin Ultra, lo que sugiere que NVIDIA continuará evolucionando su plataforma en ciclos anuales.


Resumen: Hacia la próxima etapa de la infraestructura de IA

NVIDIA Vera Rubin no es simplemente “una GPU más rápida”. Es una plataforma de IA integrada donde 7 chips y sistemas relacionados están extremadamente diseñados de forma colaborativa: el procesador propietario Vera CPU, la mejora significativa del ancho de banda de memoria con HBM4, la comunicación entre GPUs duplicada con NVLink 6, la integración de inferencia de baja latencia con Groq 3 LPU y la gestión de caché KV con almacenamiento de memoria de contexto de inferencia.

La reducción de hasta 10x en el costo de inferencia (en condiciones de contexto largo), la cuarta parte de las GPUs necesarias para el entrenamiento de modelos MoE y 350 veces la capacidad de generación de tokens con la misma energía cambian fundamentalmente la viabilidad económica de la IA de agentes.

En 2026, a medida que la IA de agentes se implementa plenamente en la automatización de las operaciones empresariales, el costo de inferencia se convierte en un problema directamente relacionado con la rentabilidad del negocio. Cuando Vera Rubin comience su producción en masa en la segunda mitad de 2026, esta ecuación de costos se reescribirá. No solo la inteligencia de los modelos, sino también la economía de la infraestructura que los ejecuta, determinará la practicidad de la IA. Vera Rubin será, en este contexto, una innovación de infraestructura crucial que definirá 2026.


Referencias

TítuloFuenteFechaURL
NVIDIA Kicks Off the Next Generation of AI With Rubin — Six New Chips, One Incredible AI SupercomputerNVIDIA Newsroom2026/03/16https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer
NVIDIA Vera Rubin Opens Agentic AI FrontierNVIDIA Newsroom2026/03/16https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform
Inside the NVIDIA Vera Rubin Platform: Six New Chips, One AI SupercomputerNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/inside-the-nvidia-rubin-platform-six-new-chips-one-ai-supercomputer/
Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin PlatformNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
NVIDIA Vera Rubin POD: Seven Chips, Five Rack-Scale Systems, One AI SupercomputerNVIDIA Technical Blog2026/03/16https://developer.nvidia.com/blog/nvidia-vera-rubin-pod-seven-chips-five-rack-scale-systems-one-ai-supercomputer/
Infrastructure for Scalable AI ReasoningNVIDIA Official2026/03https://www.nvidia.com/en-us/data-center/technologies/rubin/
Nvidia launches Vera Rubin NVL72 AI supercomputer at CESTom’s Hardware2026/01/06https://www.tomshardware.com/pc-components/gpus/nvidia-launches-vera-rubin-nvl72-ai-supercomputer-at-ces-promises-up-to-5x-greater-inference-performance-and-10x-lower-cost-per-token-than-blackwell-coming-2h-2026
GTC 2026: Nvidia Unveils Vera Rubin AI Platform, Eyes $1T by 2027Data Center Knowledge2026/03/16https://www.datacenterknowledge.com/data-center-chips/gtc-2026-nvidia-unveils-vera-rubin-ai-platform-eyes-1t-by-2027
Nvidia GTC 2026: CEO Jensen Huang sees $1 trillion in orders for Blackwell and Vera Rubin through ‘27CNBC2026/03/16https://www.cnbc.com/2026/03/16/nvidia-gtc-2026-ceo-jensen-huang-keynote-blackwell-vera-rubin.html
Nvidia’s Rubin platform aims to cut AI training, inference costsCIO Dive2026/03https://www.ciodive.com/news/nvidia-rubin-cut-ai-training-inference-costs/808915/
NVIDIA Vera Rubin NVL72 Detailed: 72 GPUs, 36 CPUs, 260 TB/s Scale-Up BandwidthVideoCardz2026/01https://videocardz.com/newz/nvidia-vera-rubin-nvl72-detailed-72-gpus-36-cpus-260-tb-s-scale-up-bandwidth
Decoding the Future of Inference At NVIDIA: Groq LPUs Join Vera Rubin PlatformServeTheHome2026/03/16https://www.servethehome.com/decoding-the-future-of-inference-at-nvidia-groq-lpus-join-vera-rubin-platform-for-low-latency-inference/
Nvidia Boasts 7 Chips in Production for Vera Rubin Platform, Including Groq 3 LPUHPCwire2026/03/16https://www.hpcwire.com/2026/03/16/nvidia-boasts-7-chips-in-production-for-vera-rubin-platform-including-groq-3-lpu/
NVIDIA Launches New Vera CPU: 88 Olympus Cores Designed From Scratch for AIKnowledge Hub Media2026/01https://knowledgehubmedia.com/nvidia-launches-new-vera-cpu-88-olympus-cores-designed-from-scratch-for-ai/
NVIDIA GTC 2026: Rubin GPUs, Groq LPUs, Vera CPUs, and What NVIDIA Is Building for Trillion-Parameter InferenceStorageReview2026/03/16https://www.storagereview.com/news/nvidia-gtc-2026-rubin-gpus-groq-lpus-vera-cpus-and-what-nvidia-is-building-for-trillion-parameter-inference

Este artículo fue generado automáticamente por LLM. Puede contener errores.