에이전틱 AI의 차세대 핵심 분야 조성
개요
NVIDIA Vera Rubin NVL72는 72개의 Rubin GPU, 36개의 Vera CPU, ConnectX®‑9 SuperNIC™ 및 BlueField®‑4 DPU와 같은 NVIDIA의 최첨단 기술을 통합한 시스템입니다. 이 플랫폼은 NVIDIA NVLink™ 6 스위치를 통해 랙 규모에서 확장 가능한 지능을 실현하고, NVIDIA Quantum-X800 InfiniBand 및 Spectrum‑X™ Ethernet을 통해 대규모 확장을 가능하게 하여 AI 산업 혁명을 본격적으로 가속화합니다. NVIDIA Groq 3 LPX 랙과 함께 구축되는 경우 Vera Rubin NVL72는 조 단위(1조 개) 파라미터 모델과 백만 토큰 맥락(컨텍스트)을 처리하는 새로운 수준의 추론 성능을 제공합니다.
Vera Rubin NVL72는 3세대 NVIDIA MGX™ NVL72 랙 설계를 기반으로 제작되어 이전 세대에서 원활하게 전환할 수 있습니다. 해당 시스템은 NVIDIA Blackwell 대비 GPU 수를 1/4로 줄인 학습 성능, 백만 토큰당 비용을 1/10으로 절감한 추론 성능을 제공합니다. 케이블 없는 모듈형 트레이 설계와 80개 이상의 MGX 에코시스템 파트너의 지원을 통해, 이 랙 규모의 AI 슈퍼컴퓨터는 세계 최고 수준의 성능을 빠르게 배치할 수 있습니다.
성능
LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 지원하는 Kimi-K2-Thinking 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 100만 토큰당 비용을 비교한 그래프입니다.
NVIDIA Vera Rubin NVL72는 상호작용 수준이 매우 높고 심층 추론이 가능한 에이전틱 AI를 사용할 때, NVIDIA GB200 NVL72와 비교하여 100만 토큰당 비용을 10분의 1 수준으로 제공합니다.
NVIDIA Vera Rubin NVL72는 NVIDIA GB200 NVL72 대비 메가와트당 최대 10배 더 많은 토큰을 처리하여 동일한 전력 수준으로 인텔리전스를 보다 확장합니다.
LLM 추론 성능은 변경될 수 있습니다. 32K/8K ISL/OSL을 지원하는 Kimi-K2 Thinking 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 MW당 초당 토큰을 비교한 그래프입니다.
예상 성능은 변경될 수 있습니다. 1개월의 고정된 기간 동안 100조 개의 토큰으로 학습한 10T MoE 모델을 기준으로, NVIDIA GB200 NVL72와 NVIDIA Vera Rubin NVL72의 GPU 수를 비교한 그래프입니다.
NVIDIA Vera Rubin NVL72는 NVIDIA GB200 NVL72가 사용하는 GPU의 1/4 수준으로 전문가 혼합(mixture-of-experts, MoE) 모델을 학습합니다.
에이전틱 시스템은 기존 AI 애플리케이션보다 최대 15배 더 많은 토큰을 소비합니다. AI 팩토리는 낮은 지연 시간과 효율적인 경제성으로 토큰 처리량 및 대규모 컨텍스트 창 요구 사항을 충족해야 합니다. Vera Rubin NVL72를 LPX와 함께 사용할 경우 조 단위 매개변수 모델에서 메가와트당 처리량이 최대 35배 더 향상됩니다.
예상 성능은 변경될 수 있습니다. 무료 티어(0달러): 2350억 개 파라미터를 가진 Qwen-3 모델, 32K KV 캐시 토큰 제공. 미디엄 티어(3달러): 1조 개 파라미터를 가진 Kimi K2.5 모델, 128K KV 캐시 토큰 제공. 하이 티어(6달러): 2조 개 파라미터를 가진 GPT-MoE 모델, 128K KV 캐시 토큰 제공. 프리미엄(45달러) 및 울트라(150달러) 티어: 2조 개 파라미터를 가진 GPT-MoE 모델, 400K KV 캐시 토큰 제공.
AI 에이전트의 시대를 이끄는 기술
사양¹
| NVIDIA Vera Rubin NVL72 | NVIDIA Vera Rubin Superchip | NVIDIA Rubin GPU | |
|---|---|---|---|
| 구성 | 72개의 NVIDIA Rubin GPU | 36개의 NVIDIA Vera CPU | Rubin GPU 2개 | Vera CPU 1개 | 1 Rubin GPU |
| NVFP4 추론 | 3,600 PFLOPS | 100 PFLOPS | 50 PFLOPS |
| NVFP4² 학습 | 2,520 PFLOPS | 70 PFLOPS | 35 PFLOPS |
| FP8/FP6² 학습 | 1,260 PFLOPS | 35 PFLOPS | 17.5 PFLOPS |
| INT8² Dense | 18 POPS | 500 TOPS | 250 TOPS |
| FP16/BF16² Dense | 288 PFLOPS | 8 PFLOPS | 4 PFLOPS |
| TF32² Dense | 144 플롭스 | 4 PFLOPS | 2 PFLOPS |
| FP32 | 9,360 TFLOPS | 260 TFLOPS | 130 TFLOPS |
| FP64 | 2,400 TFLOPS | 67TFLOPS | 33 TFLOPS |
| FP32 SGEMM³ | 28,800 TFLOPS | 800 TFLOPS | 400 TFLOPS |
| FP64 DGEMM³ | 14,400 TFLOPS | 400 TFLOPS | 200 TFLOPS |
| GPU 메모리 | 대역폭 | 20.7 TB HBM4 | 1,580 TB/s | 576 GB HBM4 | 44 TB/s | 288 GB HBM4 | 22 TB/s |
| NVIDIA NVLink | 6세대 | ||
| NVLink 대역폭 | 260 TB/s (NVLink 6 스위치 대역폭) |
7.2 TB/s | 3.6 TB/s |
| NVLink-C2C Bandwidth | 65 TB/s | 1.8 TB/s | - |
| CPU 코어 수 | 3,168개의 맞춤형 NVIDIA Olympus 코어(Arm® 호환 가능) | 88개의 맞춤형 NVIDIA Olympus 코어(Arm® 호환 가능) | - |
| CPU 메모리 | 54 TB LPDDR5X | 1.5 TB LPDDR5X | - |
| 네트워킹 대역폭(스케일 아웃) | 28.8 TB/s | 0.8 TB/s | 0.4 TB/s |
| 총 NVIDIA + HBM4 칩 | 1,296 | 30 | 12 |
1. 예비 정보입니다. 모든 값은 최대치를 기준으로 하며, 변경될 수 있습니다.
2. 고밀도 사양
3. Tensor 코어 기반의 에뮬레이션 알고리즘을 사용할 때의 최대 성능.
시작하기
NVIDIA 뉴스레터를 구독하고 최신 뉴스와 다양한 업데이트를 받으세요.