본문으로 건너뛰기
← 블로그로 돌아가기
AI트렌드HOT

화웨이 950PR AI 칩바이트댄스·알리바바 대량 주문과 미중 반도체 전쟁 새 국면

7분 읽기
#Huawei#950PR#AI 칩#바이트댄스#알리바바#미중 반도체

핵심 요약: 바이트댄스와 알리바바, 화웨이 950PR 대량 주문 나선다

2026년 3월 27일 Reuters 독점 보도에 따르면, 바이트댄스(ByteDance)와 알리바바(Alibaba)가 화웨이의 최신 AI 추론 칩 Ascend 950PR에 대한 대규모 주문을 계획하고 있다. 화웨이는 2026년 내 약 75만 개의 950PR을 출하할 계획이며, 1월에 이미 고객사에 샘플을 발송했고 2026년 4월부터 양산에 돌입한다. 하반기에는 본격적인 대량 출하가 시작될 전망이다.

이번 대량 주문은 미국의 대중국 AI 칩 수출 규제가 강화되는 가운데 이루어진 것으로, Nvidia H20 등 중국 전용 칩의 판매마저 불확실해진 상황에서 중국 빅테크 기업들이 국산 대안을 적극 채택하기 시작했음을 의미한다.

Ascend 950PR 기술 스펙: 추론에 특화된 설계

Ascend 950PR은 화웨이의 기존 학습용 칩(910C)과 달리, AI 추론(Inference) 워크로드에 최적화된 칩이다. 특히 Prefill(초기 토큰 생성)과 추천 알고리즘 등 대규모 병렬 연산이 필요한 작업에서 강점을 보인다.

950PR은 새로운 SIMD+SIMT 혼합 아키텍처를 채택했다. 벡터 기반 처리(SIMD)와 스레드 수준 병렬성(SIMT)을 결합하여, GPU와 유사한 메모리 서브시스템을 갖추면서도 추론 효율을 극대화했다. 메모리 접근 단위(granularity)를 기존 512바이트에서 128바이트로 줄여 메모리 접근 효율이 4배 향상되었다.

Atlas 350 가속 카드(950PR HBM 탑재) 기준 주요 사양은 다음과 같다.

항목Atlas 350 (950PR HBM)Nvidia H20Nvidia H100
FP4 연산 성능1.56 PFLOPSN/AN/A
FP8 연산 성능~1 PFLOPSN/A~3.96 PFLOPS
FP16 연산 성능-148 TFLOPS1,979 TFLOPS
메모리 용량112 GB (HiBL 1.0)96 GB (HBM3)80 GB (HBM3)
메모리 대역폭1.4 TB/s4.0 TB/s3.35 TB/s
TDP600W400W700W
가격~70,000 위안 (HBM)$12,000-15,000$25,000-40,000

TrendForce에 따르면 Atlas 350은 H20 대비 FP4 기준 약 2.8배의 연산 성능을 제공한다. 다만 메모리 대역폭(1.4 TB/s vs 4.0 TB/s)에서는 H20에 크게 뒤처지며, TDP 600W로 H20(400W)의 약 1.5배에 달하는 전력을 소모한다.

두 가지 버전: DDR과 HBM

950PR은 메모리 유형에 따라 두 가지 버전으로 출시된다.

구분DDR 버전HBM 버전 (Atlas 350)
메모리 유형전통적 DDR 메모리HiBL 1.0 (자체 개발 HBM)
메모리 용량미공개112 GB
가격50,000 위안 ($6,900)70,000 위안 ($9,700)
용도비용 효율 추론고성능 추론

Reuters에 따르면 DDR 버전은 약 50,000 위안, HBM 프리미엄 버전은 약 70,000 위안에 책정되었다. HBM 버전에 탑재된 HiBL 1.0은 화웨이가 자체 개발한 고대역폭 메모리로, 한국(SK하이닉스, 삼성)과 미국(마이크론)이 지배하는 HBM 공급망에서 벗어나기 위한 전략적 기술이다. 화웨이는 이를 통해 HBM3E 및 HBM4E 대비 더 낮은 비용으로 유사한 성능을 달성한다고 주장한다.

CUDA 호환성: 910C의 실패를 뒤집다

950PR의 가장 큰 변화는 소프트웨어 호환성이다. 이전 세대 Ascend 910C는 화웨이의 독자 소프트웨어 스택 CANN(Compute Architecture for Neural Networks)만을 지원했는데, Nvidia CUDA에 익숙한 개발자들의 마이그레이션 비용이 높아 민간 기업의 채택이 저조했다.

950PR에 적용된 CANN Next는 CUDA와 유사한 SIMT 프로그래밍 모델을 도입하여, CUDA 기반 코드를 최소한의 수정으로 포팅할 수 있게 했다. Reuters 보도에 따르면, 중국 테크 기업들은 950PR이 "Nvidia의 CUDA 소프트웨어 시스템과 더 호환되며 응답 속도도 개선되었다"고 평가했다. 이는 기존 CUDA 기반 모델을 더 쉽게 마이그레이션할 수 있음을 의미한다.

이 소프트웨어 호환성 개선이 바이트댄스와 알리바바 같은 대형 고객사가 주문에 나서게 된 핵심 요인이다. 910C 시절에는 정부의 국산화 캠페인에도 불구하고 민간 빅테크의 채택이 제한적이었지만, 950PR은 이 장벽을 실질적으로 낮추었다.

미중 반도체 전쟁: 공급망 재편의 신호탄

이번 움직임의 배경에는 미국의 대중국 AI 칩 수출 규제 강화가 있다. 워싱턴은 Nvidia의 H100, A100 등 고성능 칩의 대중 수출을 금지한 데 이어, 중국 전용으로 설계된 H20마저 추가 규제 대상으로 검토하고 있다. 이 불확실성이 중국 빅테크 기업들을 화웨이 쪽으로 밀어내는 요인이 되고 있다.

화웨이의 전략은 단순한 칩 판매를 넘어선다.

  1. 자체 HBM(HiBL 1.0): 한미 주도의 HBM 공급망 의존 탈피
  2. CANN Next 소프트웨어: CUDA 생태계 호환으로 전환 비용 최소화
  3. 수직 통합: 칩 설계부터 메모리, 소프트웨어 스택, 서버 시스템(Atlas)까지 일괄 제공

이는 미국 제재가 의도치 않게 중국의 자체 반도체 생태계 구축을 가속하는 역설적 결과를 낳고 있다는 분석이다.

전망: 추론 시장의 판도 변화

950PR의 성공 여부는 몇 가지 변수에 달려 있다.

첫째, 양산 안정성이다. 화웨이의 칩은 SMIC의 7nm DUV 공정으로 제조되는데, EUV 장비 없이 고수율 양산을 지속할 수 있는지가 관건이다. 2026년 75만 개 출하 목표가 달성된다면, 이는 화웨이가 제조 역량에서도 유의미한 수준에 도달했음을 의미한다.

둘째, 실전 추론 성능이다. FP4 기준 H20 대비 2.8배라는 벤치마크 수치가 실제 LLM 추론 워크로드에서 재현되는지가 중요하다. 특히 메모리 대역폭(1.4 TB/s vs H20의 4.0 TB/s)이 대규모 모델 추론에서 병목이 될 가능성이 있다.

셋째, 생태계 성숙도이다. CANN Next가 CUDA와의 호환성을 높였다고는 하나, 수천 개의 CUDA 기반 라이브러리와 도구를 완전히 대체하기까지는 시간이 필요하다. 바이트댄스와 알리바바의 실사용 피드백이 생태계 개선의 핵심 동력이 될 것이다.

개인적 전망으로는, 950PR이 중국 내 AI 추론 시장에서 유의미한 점유율을 확보할 가능성이 높다고 본다. 미국의 수출 규제가 완화될 조짐이 보이지 않는 한, 중국 기업들에게 950PR은 사실상 유일한 고성능 대안이기 때문이다. 다만 글로벌 시장에서 Nvidia의 지배력을 위협하기에는 소프트웨어 생태계의 격차가 여전히 크다.


참고

Share
JJY
JJYAuthor

AI, 웹 보안, 개발 환경에 관심이 많습니다.

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

관련 포스트