NVIDIA GTC 2026 하드웨어 총정리Groq LPU·Kyber 랙·DLSS 5, 그리고 $1조 주문
GTC 2026: 하드웨어로 읽는 AI 미래
2026년 3월 17일, 산호세 컨벤션 센터. Jensen Huang은 가죽 재킷 대신 이번에도 가죽 재킷을 입고 무대에 올랐다. 하지만 이번 GTC의 키노트는 이전과 결이 달랐다. 소프트웨어 생태계보다 하드웨어 혁신이 전면에 나섰기 때문이다.
요약하면 이렇다:
- Groq 3 LPU: $200억 인수 후 첫 번째 칩. GPU 대비 35배 높은 토큰/와트 효율
- Kyber 랙 아키텍처: 144 GPU를 수직으로 배치하는 새로운 폼팩터
- DLSS 5: 래스터라이징 없이 신경망으로 픽셀을 생성하는 신경 렌더링
- $1조 주문: Blackwell + Vera Rubin 통합 라인업의 2027년까지 수주 규모
이 모든 발표가 가리키는 방향은 하나다. AI 추론(inference)이 학습(training)만큼, 혹은 그 이상으로 중요한 시대가 왔다는 것.
Groq 3 LPU — GPU만으로는 부족하다
$200억짜리 베팅
2025년 말, NVIDIA는 Groq Inc.를 약 $200억에 인수했다. Groq는 TPU를 설계한 구글 엔지니어들이 만든 회사로, **LPU(Language Processing Unit)**라는 추론 전용 칩을 개발해 왔다. GPU가 학습과 추론 모두를 범용으로 처리한다면, LPU는 추론만을 위해 설계된 칩이다.
GTC 2026에서 공개된 Groq 3는 인수 후 첫 정식 칩이다.
핵심 스펙
| 항목 | GPU (H100 기준) | Groq 3 LPU |
|---|---|---|
| 토큰/와트 | 1x (기준) | 35x |
| 레이턴시 | ~50ms/토큰 | ~1.4ms/토큰 |
| 랙 구성 | 8 GPU/노드 | 256 LPU/랙 |
| 최적화 대상 | 학습 + 추론 | 추론 전용 |
35배라는 수치는 단순 벤치마크가 아니다. 동일한 전력 예산에서 35배 더 많은 토큰을 처리할 수 있다는 뜻이며, 이는 데이터센터 운영 비용에 직접적으로 영향을 준다.
추론 전용 하드웨어의 의미
클라우드 AI 서비스의 비용 구조에서 추론이 차지하는 비중은 80% 이상이다. 모델을 한 번 학습시키면 끝이지만, 추론은 사용자가 질문할 때마다 매번 일어난다. Groq 3 LPU가 실전에 배치되면 추론 비용이 극적으로 낮아질 수 있다.
NVIDIA가 GPU 제국을 스스로 잠식하는 것처럼 보이지만, 실상은 다르다. GPU는 학습, LPU는 추론이라는 이원 체제를 구축함으로써 AI 인프라 전체를 장악하려는 전략이다.
Kyber 랙과 DLSS 5 — 밀도와 렌더링의 진화
Kyber: 수직으로 쌓는 GPU
기존 데이터센터 랙은 서버를 수평으로 슬롯에 꽂는 구조다. Kyber 랙 아키텍처는 이를 뒤집었다. 144개의 GPU를 수직으로 배치하고, 각 GPU 사이를 액체 냉각 채널로 직결한다.
이 설계의 장점:
- 밀도: 동일 바닥 면적에서 기존 대비 약 2배의 GPU 수용
- 냉각 효율: 수직 배치로 열이 자연 대류와 액체 냉각 모두를 활용
- 대역폭: GPU 간 NVLink 6.0으로 직접 연결, 네트워크 스위치 병목 제거
Kyber 랙의 출하는 2027년 상반기로 예정되어 있으며, 첫 고객은 Microsoft Azure와 AWS로 알려졌다.
DLSS 5: 신경 렌더링의 시작
DLSS(Deep Learning Super Sampling)는 버전을 거듭하며 업스케일링 → 프레임 생성 → Ray Reconstruction으로 진화해왔다. DLSS 5는 여기서 한 단계 더 나아간다.
Neural Rendering Engine이라 불리는 새 파이프라인에서는 기존 래스터라이저가 생성한 저해상도 프레임 대신, 신경망이 직접 최종 픽셀을 생성한다. 지오메트리와 텍스처 데이터를 입력받아 포톤 매핑 수준의 라이팅을 실시간으로 계산한다.
- 지원 GPU: RTX 50시리즈 (Blackwell 기반)
- 출시 시기: 2026년 가을
- 첫 지원 타이틀: Unreal Engine 6 통합 데모에서 시연
기존 DLSS가 "게임 프레임을 더 빠르게"였다면, DLSS 5는 **"게임 프레임을 다르게 만든다"**에 가깝다.
전망: $1조 주문과 AI 인프라 전쟁
이 섹션의 수치와 전망은 CNBC, Tom's Hardware, The Decoder 등 복수의 보도를 기반으로 한 **추론(inference)**이며, NVIDIA의 공식 재무 발표와 다를 수 있습니다.
수주 잔량의 의미
Jensen Huang은 키노트에서 **"2027년까지의 수주 잔량이 $1조를 넘었다"**고 밝혔다. 이 수치는 Blackwell GPU와 차세대 Vera Rubin 플랫폼에 대한 사전 주문을 합산한 것이다.
$1조는 과장이 아니다. 현재 AI 인프라에 투자하는 주요 플레이어를 보면:
- Microsoft: $800억 AI 데이터센터 투자 계획 (FY2026)
- Meta: $650억 규모 AI 인프라 확장
- Google: $750억 AI 인프라 투자 계획 (2026-2027)
- Amazon: $1,000억 규모 AI 인프라 투자
이들의 GPU 수요만 합쳐도 $1조 규모의 주문은 충분히 현실적이다.
로드맵: Blackwell → Vera Rubin → Kyber
NVIDIA의 하드웨어 로드맵은 명확하다:
- Blackwell (2025-2026): 현재 주력. 학습과 추론 모두 지원
- Vera Rubin (2027): 차세대 아키텍처. HBM4 메모리, NVLink 6.0
- Kyber (2027+): 랙 스케일 아키텍처. GPU + LPU 하이브리드
주목할 점은 Kyber가 단순한 서버가 아니라 GPU와 LPU를 하나의 랙에서 혼합 배치할 수 있다는 것이다. 학습 워크로드는 GPU에, 추론 워크로드는 LPU에 자동으로 라우팅된다.
AI 인프라 전쟁의 승자는?
NVIDIA의 경쟁자들도 가만히 있지 않다. AMD MI400 시리즈, Intel Gaudi 3, 그리고 각 클라우드 업체의 자체 칩(Google TPU v6, Amazon Trainium 3, Microsoft Maia 2)이 모두 2026-2027에 출시를 앞두고 있다.
하지만 NVIDIA가 **학습(GPU) + 추론(LPU) + 랙 아키텍처(Kyber) + 소프트웨어 생태계(CUDA, NeMo)**를 수직 통합한 유일한 플레이어라는 점에서, 당분간 이 게임의 규칙은 NVIDIA가 정할 가능성이 높다.
이 글은 GTC 2026의 하드웨어 발표에 집중합니다. 소프트웨어 플랫폼(NemoClaw 에이전트)에 대한 분석은 별도 포스트에서 다룹니다.