DeepSeek V4 출시: Huawei 칩 위에서 프론티어급 성능, 가격은 1/6

관련 글: DeepSeek V4 임박: 오픈소스 AI 경쟁의 다음 라운드

핵심 요약

DeepSeek이 2026년 4월 24일 차세대 모델 V4-Pro(1.6T 파라미터)와 V4-Flash(284B)를 동시에 공개했습니다. MIT 라이선스 오픈웨이트, 100만 토큰 컨텍스트, 그리고 Western 프론티어 모델 대비 1/6 수준의 API 가격. 여기까지만 보면 DeepSeek답게 예측 가능한 전개입니다.

진짜 뉴스는 따로 있습니다. V4는 Huawei Ascend 950PR 칩에 최적화된 첫 번째 프론티어급 모델입니다. NVIDIA CUDA 생태계를 벗어나 Huawei CANN 프레임워크 위에서 돌아가도록 코어 코드를 처음부터 다시 작성했습니다.

Bloomberg, CNBC, Fortune, MIT Technology Review 등 주요 매체가 일제히 보도했고, NVIDIA CEO Jensen Huang은 이를 두고 Dwarkesh Podcast에서 "미국에 끔찍한 결과(horrible outcome)"라고 발언했습니다.

⚙️ 모델 스펙과 아키텍처

V4는 두 가지 SKU로 출시됐습니다.

항목	V4-Pro	V4-Flash
총 파라미터	1.6T	284B
활성 파라미터	49B	13B
아키텍처	MoE	MoE
학습 데이터	33T 토큰	32T 토큰
컨텍스트 길이	1M 토큰	1M 토큰
라이선스	MIT	MIT
API 입력 가격 ($/1M 토큰)	$1.74	$0.14
API 출력 가격 ($/1M 토큰)	$3.48	$0.28

DeepSeek은 V4를 "1M 토큰 컨텍스트를 처음부터 기본값으로 설계한 최초의 오픈 모델"이라고 설명합니다. 기존 모델들이 짧은 컨텍스트로 학습한 뒤 확장하는 방식이었다면, V4는 설계 단계에서 100만 토큰을 전제로 아키텍처를 잡았습니다. V3의 128K 컨텍스트에서 약 8배 늘어났습니다. 이 도약의 핵심은 Hybrid Attention Architecture입니다.

Hybrid Attention: CSA + HCA + mHC

V4의 가장 중요한 기술적 성취는 어텐션 메커니즘의 재설계입니다.

CSA(Compressed Sparse Attention): 초기 토큰 차원을 압축해 불필요한 연산을 줄입니다
HCA(Heavily Compressed Attention): 장거리 의존성의 메모리 풋프린트를 공격적으로 압축합니다
슬라이딩 윈도우 어텐션: 가까운 토큰 관계를 고해상도로 보존합니다
어텐션 싱크: 정규화 행동을 조정하는 앵커 포인트 역할
mHC(Manifold-Constrained Hyper-Connections): 잔차 연결을 강화해 레이어 간 신호 전파를 안정화. 모델 깊이를 늘려도 표현력 저하 없이 학습이 가능합니다

결과는 인상적입니다. 1M 토큰 컨텍스트 설정에서 V4-Pro는 V3.2 대비 단일 토큰 추론 FLOPs의 27%, **KV 캐시의 10%**만 사용합니다. KV 캐시 메모리가 약 90% 줄어든 셈으로, 추론 서버의 동시 처리 능력이 비약적으로 개선됩니다.

📊 벤치마크: 프론티어 근접, 코딩은 선두

DeepSeek 측이 발표하고 VentureBeat 등 복수의 매체가 확인한 주요 벤치마크 결과입니다.

벤치마크	V4-Pro	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
MMLU	88.4	—	—	—
MMLU-Pro	87.5	89.1	87.5	91.0
GPQA	90.1	—	—	—
SWE-bench Verified	80.6%	80.8%	—	—
SWE-bench Pro	55.4%	—	58.6%	—
LiveCodeBench	93.5	—	—	—
Codeforces Rating	3,206	—	3,168	3,052
HLE	37.7%	40.0%	39.8%	44.4%

코딩 벤치마크에서 V4-Pro는 눈에 띕니다. LiveCodeBench 93.5와 Codeforces 3,206은 현존 최고 수준입니다. SWE-bench Verified 80.6%는 Claude Opus 4.6의 80.8%와 0.2% 포인트 차이로, 사실상 동급입니다.

반면 MMLU-Pro와 HLE에서는 Western 프론티어 모델에 뒤처집니다. Gemini 3.1 Pro의 HLE 44.4% 대비 V4-Pro는 37.7%로 격차가 있습니다. 범용 추론보다 코딩·수학 특화 전략으로 읽힙니다.

💰 가격: Western 프론티어의 1/6

VentureBeat는 V4를 "프론티어급 지능, 1/6 가격"으로 요약했습니다.

모델	입력 ($/1M 토큰)	출력 ($/1M 토큰)
DeepSeek V4-Pro	$1.74	$3.48
DeepSeek V4-Flash	$0.14	$0.28
Claude Opus 4.6	~$15	~$75
GPT-5.4	~$10	~$30

V4-Flash의 가격은 특히 파격적입니다. 입력 $0.14, 출력 $0.28. 경량 모델치고도 낮은 수준입니다. Startup Fortune은 "서구 AI 연구소의 가격표를 부끄럽게 만들 수준"이라고 평했습니다.

물론 단순 비교에는 함정이 있습니다. Claude Opus 4.6이나 GPT-5.4는 HLE 같은 범용 추론에서 여전히 우위에 있고, 비용 대비 성능만으로 모델을 선택하는 기업은 많지 않습니다. 안정성, 에코시스템, 규제 리스크도 변수입니다.

🔧 Huawei Ascend 최적화: CUDA 이탈의 시작?

V4의 가장 의미 있는 변화는 실리콘 레벨에서 일어났습니다.

DeepSeek은 수개월간 핵심 코드를 다시 작성해 Huawei의 CANN 프레임워크에서 동작하도록 했습니다. NVIDIA가 20년 넘게 쌓아온 CUDA 생태계를 우회하는 첫 프론티어급 사례입니다.

CNBC와 Bloomberg에 따르면, V4는 Huawei Ascend 950PR 칩 위에서 학습과 추론 모두를 지원합니다. Fortune은 "V4가 Ascend 칩에서 성공적으로 동작하면, NVIDIA에 한 번도 의존하지 않는 대체 AI 개발 경로가 검증되는 셈"이라고 분석했습니다.

Jensen Huang의 "horrible outcome" 발언은 이 맥락에서 나왔습니다. 중국의 가장 유능한 AI 연구소와 가장 앞선 칩 제조사가 손을 잡으면, 미국의 반도체 수출 규제가 만들어놓은 기술적 레버리지가 무력화된다는 우려입니다.

MIT Technology Review는 DeepSeek V4가 중요한 세 가지 이유를 제시했습니다. 그중 하나가 바로 "미·중 AI 경쟁에서 하드웨어 독립의 전례를 만든 것"이었습니다.

공교롭게도 V4 발표 당일, 미 백악관 OSTP는 중국 기업들이 수만 개의 프록시 계정과 탈옥 기법으로 미국 AI 모델을 무단 증류(distillation)하고 있다는 메모를 발표했습니다. 중국 대사관은 "근거 없는 주장"이라고 반박했습니다. 기술 경쟁이 외교 갈등으로 번지는 패턴이 반복되고 있습니다.

다만 한 가지 짚어둘 점. V4 훈련에 Huawei 칩이 실제로 얼마나 사용됐는지는 아직 명확하지 않습니다. NVIDIA GPU와 혼용했을 가능성을 배제할 수 없으며, DeepSeek은 훈련 비용도 공개하지 않았습니다. CNBC는 "Huawei 칩이 훈련에 얼마나 광범위하게 사용됐는지는 불명확"하다고 전했습니다.

오픈소스 전략의 의미

V4의 MIT 라이선스 오픈웨이트 공개는 단순한 선의가 아닙니다.

DeepSeek의 오픈소스 전략은 V3부터 일관됩니다. 모델 가중치를 공개해 커뮤니티 생태계를 넓히고, API 사용량을 늘리며, 글로벌 개발자를 자사 플랫폼으로 끌어오는 구조입니다. HuggingFace에는 출시 당일 V4-Pro와 V4-Flash가 동시에 올라왔습니다.

1.6T 파라미터 모델을 MIT 라이선스로 풀어놓은 건 시장에 분명한 메시지를 보냅니다. 서구 연구소들의 고가 API를 대체할 선택지가 점점 늘어나고 있다는 것. Q1 2026에 글로벌 벤처 투자의 80%가 AI에 집중된 시점에서, 모델 접근 비용의 하락은 스타트업 생태계 전체에 영향을 미칩니다.

전망

V4의 진짜 테스트는 앞으로 수개월간 진행됩니다.

벤치마크 수치는 좋지만, 실제 프로덕션 환경에서의 안정성, 할루시네이션 비율, 엔터프라이즈 지원 체계는 별개의 문제입니다. Western 연구소들은 이미 다음 세대를 준비하고 있습니다. Anthropic의 Claude Mythos가 파트너 한정 프리뷰 중이고, OpenAI의 GPT-6 루머도 돌고 있습니다.

Huawei 칩 최적화의 성패는 V4의 기술적 성과보다 더 큰 파급력을 가질 수 있습니다. Ascend 950PR 위에서 대규모 학습이 실제로 NVIDIA H100/B200급 효율에 근접한다면, AI 하드웨어 시장의 판도가 바뀝니다. 아직은 프리뷰 단계이고, 독립적인 대규모 벤치마크는 나오지 않았습니다.

개인적으로는 V4 자체의 성능보다 Huawei + DeepSeek 조합이 만들어낸 "CUDA 없는 AI" 경로가 이 뉴스의 본질이라고 봅니다. 모델은 계속 나오고, 벤치마크는 매 분기 뒤집힙니다. 하지만 실리콘 레벨의 생태계 분리는 되돌리기 어려운 구조적 변화입니다.

참고

DeepSeek V4 출시: Huawei 칩 위에서 프론티어급 성능, 가격은 1/6

핵심 요약

⚙️ 모델 스펙과 아키텍처

Hybrid Attention: CSA + HCA + mHC

📊 벤치마크: 프론티어 근접, 코딩은 선두

💰 가격: Western 프론티어의 1/6

🔧 Huawei Ascend 최적화: CUDA 이탈의 시작?

오픈소스 전략의 의미

전망

관련 포스트

DeepSeek V4 임박: 오픈소스 AI 경쟁의 다음 라운드

Zhipu AI GLM-5 공개, 744B 오픈소스 모델이 서방 프론티어급에 도전하다

Google Gemma 4, 스마트폰에서 돌리는 오픈소스 AI, Apache 2.0으로 문 열다