싱글 랙 NVIDIA Vera Rubin NVL72

NVIDIA Vera Rubin NVL72

에이전틱 AI의 차세대 핵심 분야 조성

개요

7개의 새로운 칩과 1개의 AI 슈퍼컴퓨터

NVIDIA Vera Rubin NVL72는 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®‑9 SuperNIC™ 및 BlueField®‑4 DPU와 같은 NVIDIA의 최첨단 기술을 통합한 시스템입니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 랙 규모에서 확장 가능한 지능을 실현하고, NVIDIA Quantum-X800 InfiniBand 및 Spectrum‑X™ Ethernet을 통해 대규모 확장을 가능하게 하여 AI 산업 혁명을 본격적으로 가속화합니다. NVIDIA Groq 3 LPX 랙과 함께 구축되는 경우 Vera Rubin NVL72는 조 단위(1조 개) 파라미터 모델과 백만 토큰 맥락(컨텍스트)을 처리하는 새로운 수준의 추론 성능을 제공합니다.

Vera Rubin NVL72는 3세대 NVIDIA MGX™ NVL72 랙 설계를 기반으로 제작되어 이전 세대에서 원활하게 전환할 수 있습니다. 해당 시스템은 NVIDIA Blackwell 대비 GPU 수를 1/4로 줄인 학습 성능, 백만 토큰당 비용을 1/10으로 절감한 추론 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 에코시스템 파트너의 지원을 통해, 이 랙 규모의 AI 슈퍼컴퓨터는 세계 최고 수준의 성능을 빠르게 배치할 수 있습니다.

전 세계 에이전틱 AI 팩토리 구동을 위한 NVIDIA Vera Rubin 양산 돌입

이제 NVIDIA Vera Rubin은 대만 최고의 서버 제조업체와 글로벌 공급망 선도 업체를 통해 본격적인 양산 단계에 돌입하여 Vera Rubin 기반의 시스템이 출하되고 있습니다. 이를 기반으로 AI 개발 연구소를 비롯한 클라우드 공급 업체 및 하이퍼스케일러 조직들은 미래 인텔리전스를 구축하는 데 추진력을 얻게 되었습니다.

NVIDIA Vera Rubin, 에이전틱 AI의 새로운 지평을 열다.

NVIDIA Vera Rubin 플랫폼은 세계 최대 규모의 AI 팩토리를 확장하기 위해 새롭게 출시되고 현재 양산 중인 7개의 신규 칩을 제공합니다.

성능

AI 추론 및 학습의 효율성 대폭 증가

LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 지원하는 Kimi-K2-Thinking 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 100만 토큰당 비용을 비교한 그래프입니다.

추론 비용 절감

NVIDIA Vera Rubin NVL72는 상호작용 수준이 매우 높고 심층 추론이 가능한 에이전틱 AI를 사용할 때, NVIDIA GB200 NVL72와 비교하여 100만 토큰당 비용을 10분의 1 수준으로 제공합니다.

AI 팩토리 처리량 극대화

NVIDIA Vera Rubin NVL72는 NVIDIA GB200 NVL72 대비 메가와트당 최대 10배 더 많은 토큰을 처리하여 동일한 전력 수준으로 인텔리전스를 보다 확장합니다.

LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 지원하는 Kimi-K2 Thinking 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 MW당 초당 토큰을 비교한 그래프입니다.

예상 성능은 변경될 수 있습니다. 1개월의 고정된 기간 동안 100조 개의 토큰으로 학습한 10T MoE 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 GPU 수를 비교한 그래프입니다.

학습 효율 향상

NVIDIA Vera Rubin NVL72는 NVIDIA GB200 NVL72가 사용하는 GPU의 1/4 수준으로 전문가 혼합(mixture-of-experts, MoE) 모델을 학습합니다.

조 단위 매개변수 모델에 사용 가능한 35배 더 높은 처리량

에이전틱 시스템은 기존 AI 애플리케이션보다 최대 15배 더 많은 토큰을 소비합니다. AI 팩토리는 낮은 지연 시간과 효율적인 경제성으로 토큰 처리량 및 대규모 컨텍스트 창 요구 사항을 충족해야 합니다. Vera Rubin NVL72를 LPX와 함께 사용할 경우 조 단위 매개변수 모델에서 메가와트당 처리량이 최대 35배 더 향상됩니다.

예상 성능은 변경될 수 있습니다. 무료 티어(0달러): 2350억 개 파라미터를 가진 Qwen-3 모델, 32K KV 캐시 토큰 제공. 미디엄 티어(3달러): 1조 개 파라미터를 가진 Kimi K2.5 모델, 128K KV 캐시 토큰 제공. 하이 티어(6달러): 2조 개 파라미터를 가진 GPT-MoE 모델, 128K KV 캐시 토큰 제공. 프리미엄(45달러) 및 울트라(150달러) 티어: 2조 개 파라미터를 가진 GPT-MoE 모델, 400K KV 캐시 토큰 제공.

AI 에이전트의 시대를 이끄는 기술

Vera Rubin 플랫폼 내부

NVIDIA Rubin GPU

HBM4와 50 PF NVFP4 트랜스포머 엔진을 탑재한 Rubin GPU는 차세대 AI를 위해 설계되었습니다.

NVIDIA Vera CPU

Vera CPU는 데이터 이동과 에이전틱 추론을 위해 특별히 제작되었으며, 결정론적 성능과 함께 고대역폭의 에너지 효율적인 컴퓨팅을 제공합니다.

NVIDIA NVLink 6 Switch

NVLink 6 스위치는 GPU당 3.6TB/s의 올투올(all-to-all) 스케일 업 대역폭을 갖추고 있으며, AI를 위한 GPU 간 고속 통신을 지원합니다.

NVIDIA ConnectX-9 SuperNIC

ConnectX‑9 SuperNIC는 PCIe Gen6를 통해 GPU당 1.6Tb/s의 대역폭을 제공합니다. 또한 프로그래밍 가능한 원격 직접 메모리 액세스(RDMA)를 통해, 대규모 환경에서도 지연 시간이 낮은 GPUDirect 네트워킹을 지원합니다.

NVIDIA BlueField-4 DPU

BlueField-4 DPU는 AI 팩토리의 스토리지, 네트워킹, 사이버 보안 및 탄력적 확장 전반에 걸쳐 데이터 처리를 가속합니다.

공동 패키징 광학 기술이 적용된 NVIDIA Spectrum-X 이더넷

실리콘 포토닉스가 통합된 Spectrum‑X 이더넷 스케일 아웃 스위치는 플러그형 트랜시버를 사용하는 기존 네트워킹 대비 5배 더 우수한 전력 효율성, 10배 더 높은 네트워크 회복 탄력성 및 최대 5배 더 긴 가동 시간을 제공합니다.

NVIDIA Groq 3 LPU

이는 NVIDIA Vera Rubin NVL72를 위한 추론 가속기로, 에이전틱 시스템의 저지연 및 대규모 컨텍스트 처리 요구 사항을 충족하도록 설계되었습니다. NVIDIA Groq 3 LPX 랙은 256개의 LPU, 128GB의 SRAM, 초당 40PB의 메모리 대역폭, 그리고 랙당 640TB/s의 확장 대역폭을 갖추고 있습니다. Vera Rubin NVL72와 공동 설계되어 전력당 35배의 추론 성능과 조 단위 파라미터 모델에서 Blackwell 대비 최대 10배의 수익 기회를 제공합니다.

사양¹

NVIDIA Vera Rubin NVL72 사양

NVIDIA Vera Rubin NVL72 NVIDIA Vera Rubin Superchip NVIDIA Rubin GPU
구성 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU Rubin GPU 2개 | Vera CPU 1개 1 Rubin GPU
NVFP4 추론 3,600 PFLOPS 100 PFLOPS 50 PFLOPS
NVFP4² 학습 2,520 PFLOPS 70 PFLOPS 35 PFLOPS
FP8/FP6² 학습 1,260 PFLOPS 35 PFLOPS 17.5 PFLOPS
INT8² Dense 18 POPS 500 TOPS 250 TOPS
FP16/BF16² Dense 288 PFLOPS 8 PFLOPS 4 PFLOPS
TF32² Dense 144 플롭스 4 PFLOPS 2 PFLOPS
FP32 9,360 TFLOPS 260 TFLOPS 130 TFLOPS
FP64 2,400 TFLOPS 67TFLOPS 33 TFLOPS
FP32 SGEMM³ 28,800 TFLOPS 800 TFLOPS 400 TFLOPS
FP64 DGEMM³ 14,400 TFLOPS 400 TFLOPS 200 TFLOPS
GPU 메모리 | 대역폭 20.7 TB HBM4 | 1,580 TB/s 576 GB HBM4 | 44 TB/s 288 GB HBM4 | 22 TB/s
NVIDIA NVLink 6세대
NVLink 대역폭 260 TB/s
(NVLink 6 스위치 대역폭)
7.2 TB/s 3.6 TB/s
NVLink-C2C Bandwidth 65 TB/s 1.8 TB/s -
CPU 코어 수 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm® 호환 가능) 88개의 맞춤형 NVIDIA Olympus 코어(Arm® 호환 가능) -
CPU 메모리 54 TB LPDDR5X 1.5 TB LPDDR5X -
네트워킹 대역폭(스케일 아웃) 28.8 TB/s 0.8 TB/s 0.4 TB/s
총 NVIDIA + HBM4 칩 1,296 30 12

1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.

시작하기

최신 NVIDIA 뉴스 구독하기

NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.