Qualcomm이 산 Modular: $3.92B로 깎으려는 Nvidia CUDA의 해자
핵심 요약
Qualcomm이 6월 24일 Modular Inc.를 $3.92B 올스톡 거래로 인수한다고 공식 발표했다. 신주 최대 1,920만 주를 사모 방식으로 발행해 Modular 주주에게 지급한다. 거래는 2026년 하반기 마감 예정이며 규제 승인이 조건이다.
관련 글: Qualcomm의 Tenstorrent $10B 인수설: Jim Keller의 RISC-V 카드로 NVIDIA에 맞선다
Modular는 2022년 Chris Lattner와 Tim Davis가 창업한 AI 소프트웨어 회사다. Lattner는 LLVM 컴파일러와 Apple Swift 언어를 만들었고, Google에서 TPU 컴파일러 작업, Tesla Autopilot 팀을 짧게 이끈 이력이 있다. 인력은 약 150명. 9개월 전 $250M Series C 라운드의 프리머니가 $1.6B이었으니, 인수가는 직전 밸류에서 약 2.45배다.
같은 날 Qualcomm은 Investor Day에서 데이터센터 로드맵 "Dragonfly"를 공개했다. C1000 CPU, AI200(2026 출시), AI250(2027 mid 출시, HBC Gen 1로 카드당 133TB/s 대역폭), AI300까지 연간 케이던스 라인업을 그렸다. Microsoft Azure가 HBC 아키텍처에 합류 의사를 밝혔고, 사우디 Humain이 200MW 규모로 첫 고객이 됐다.
이 두 발표는 같은 그림의 두 조각이다. 칩만으로는 Nvidia를 따라잡기 어렵다. CUDA를 우회할 소프트웨어 계층이 필요하고, Modular의 MAX·Mojo가 그 자리다.
누가, 얼마에, 왜
거래 구조부터 정리한다. 공식 보도자료 기준 거래액은 약 $3.92B 올스톡이다. Qualcomm은 사모 발행으로 신주 최대 1,920만 주를 Modular 주주에게 지급한다. 6월 24일 공시 시점 QCOM 시가 기준으로 계산하면 평균 $204 수준의 환산가다.
Modular의 직전 사적 평가액은 $1.6B이다. 2025년 9월 마감한 $250M Series C 라운드에서 잡힌 가격이다. 9개월 만에 2.45배 멀티플 확장이지만, 매크로 멀티플 인플레이션이라기보다 Qualcomm 입장에서 본 전략적 가치 산정에 가깝다.
거래는 2026년 하반기 마감을 목표로 한다. 미국 HSR과 EU·중국 등 주요국 규제 심사가 변수다. 칩과 컴파일러를 결합하는 거래는 반독점 관점에서 자주 들여다보지만, Modular가 매출 규모로 보면 Series C 단계 스타트업이라 1차 게이트 통과 가능성은 높다는 게 시장의 잠정 평가다.
| 항목 | 수치 | 비고 |
|---|---|---|
| 거래액 | $3.92B | 올스톡, 사모 발행 |
| 신주 발행 한도 | 1,920만 주 | Qualcomm 보통주 |
| 직전 밸류 | $1.6B | 2025년 9월 Series C |
| 인수 프리미엄 | 2.45배 | 9개월 만 |
| 인력 | 약 150명 | Lattner·Davis 포함 합류 |
| 클로징 | 2026년 하반기 | 규제 승인 조건 |
핵심 인물 Chris Lattner의 트랙 레코드가 거래 가치 평가에서 큰 비중을 차지한다. LLVM 프로젝트로 컴파일러 인프라 표준을 만들었고, Apple에서 Swift를 설계했다. Google에서는 TPU MLIR 작업에 참여했고, Tesla Autopilot 팀을 6개월 이끈 뒤 SiFive를 거쳐 Modular를 창업했다. 한 줄로 말하면 칩 회사가 가장 갖고 싶어 할 만한 소프트웨어 엔지니어다.
공동 창업자 Tim Davis는 Google에서 TensorFlow와 TFLite, Edge TPU 컴파일러를 책임졌다. 두 사람이 만든 Modular는 처음부터 "CUDA에 묶이지 않는 AI 소프트웨어 스택"이라는 단일 미션으로 출발했다.
Modular의 두 자산: Mojo와 MAX
Modular의 제품은 크게 두 축이다. MAX는 추론 프레임워크다. PyTorch·CUDA·ROCm에 의존하지 않고 단일 코드베이스로 Nvidia GPU, AMD GPU, Apple Silicon, Intel CPU 위에서 같은 모델을 돌린다. Mojo는 GPU 커널을 직접 작성하기 위한 시스템 언어다. Python 문법을 유지하면서 컴파일 타임 메타프로그래밍과 SIMD 제어를 지원한다.
Modular Platform 26.2는 5월에 공개됐다. FLUX.2 이미지 생성에서 기존 PyTorch 기반 추론 대비 4배 이상 처리량을 보였고, 하드웨어 지원은 Nvidia B300, Jetson Thor, DGX Spark, AMD RDNA 소비자 GPU까지 확대됐다.
여기서 중요한 건 의존성 그림이다. MAX는 PyTorch, CUDA, ROCm을 패치하거나 동기화할 필요가 없다. 모델 그래프를 자체 IR로 받아 각 하드웨어 백엔드로 직접 컴파일한다. CUDA에 묶인 PyTorch 워크플로를 그대로 옮겨 오는 것이 아니라, 추론 스택의 베이스부터 다시 까는 접근이다.
Mojo는 아직 채택 곡선의 초기 구간이다. PyTorch의 컴파일 경로(torch.compile)나 OpenAI의 Triton과 정면 경쟁한다. 다만 컴파일러 인프라 측면에서는 MLIR을 활용한 정통 설계라 한 번 채택되면 백엔드 이식이 비교적 빠르다는 평이다.
Dragonfly 로드맵: 하드웨어 그림
같은 날 Investor Day에서 공개된 Dragonfly 포트폴리오는 Qualcomm 데이터센터 그림의 첫 풀 라인업이다. 이전까지는 AI200·AI250 두 가속기 SKU만 알려져 있었다.
- C1000 CPU: ARM 기반 데이터센터 CPU. Qualcomm 자체 코어를 Nuvia 인수 기반으로 설계
- AI200: 2026년 출시. 초기 인퍼런스 가속기, 메모리 중심 설계
- AI250: 2027년 mid 출시. HBC(High Bandwidth Compute) Gen 1 탑재, 카드당 133TB/s 대역폭으로 AI200 대비 18배
- AI300: AI250 후속, 연간 케이던스 유지
연간 케이던스는 Nvidia가 H100 → B200 → B300 → R200으로 이어가는 속도에 비견된다. 다만 Qualcomm은 후발 주자라 절대 성능에서 Nvidia를 1세대 만에 따라잡기보다, 가격·전력·소프트웨어 호환성 축에서 차별화를 노린다.
초기 고객은 사우디 Humain이다. 200MW 규모 배포를 2026년부터 시작한다고 발표했다. Microsoft Azure는 HBC 아키텍처 자체에 관심을 표명했고, 정식 채택 일정은 공개되지 않았다.
FY 2029 비-핸드셋 매출 가이던스도 함께 상향 조정됐다. $40B 목표로, 현재 핸드셋 SoC 의존도가 매출의 70% 안팎인 구조를 의식한 것이다.
CUDA 해자: 칩이 아닌 컴파일러가 문제다
Nvidia의 데이터센터 점유율은 80%를 넘는다. 하드웨어 자체로 따라잡기 어려운 이유의 절반은 CUDA다. 모델을 학습·추론하는 PyTorch 코드 대부분이 CUDA 커널에 직접 의존하고, CUDA는 Nvidia GPU에서만 돈다.
AMD가 ROCm으로 대응하고 있지만, PyTorch 측 지원 격차와 커널 라이브러리 깊이 차이가 여전하다. Intel Gaudi, Google TPU, Apple Silicon은 각자 별도 컴파일러를 운영한다. 결과적으로 "Nvidia가 아닌 칩"으로 옮기려는 모든 시도는 각자 따로 소프트웨어 스택을 다시 짜야 한다.
Modular의 베팅은 한 줄로 정리된다. "모델을 한 번 작성하면, 어디서든 돌게 한다." MAX는 PyTorch 종속을 끊고, Mojo는 커널 작성 표준을 자체적으로 가져간다. 이게 통하면 Qualcomm의 AI200·AI250 가속기는 별도의 ROCm 같은 스택을 처음부터 구축할 필요가 없다. Modular IR이 그 자리를 채운다.
비교 대상은 OpenAI의 Triton과 PyTorch 2.x의 torch.compile이다. Triton은 GPU 커널 DSL로, 이미 OpenAI 내부와 일부 오픈소스 프로젝트에서 쓰인다. torch.compile은 PyTorch 그래프를 받아 백엔드로 컴파일하는 경로다. Modular MAX는 이 두 가지의 장점을 결합한 구도를 노린다.
업계 시각은 갈린다. SiliconANGLE은 Qualcomm 주가가 발표 직후 14% 급등했다고 보도했다. 반면 TradingKey는 같은 날 종가 기준 4% 하락을 기록했다고 보고했다. 인트라데이 변동성이 컸다는 점은 일치한다. 시장이 컴파일러 인수를 어떻게 가격에 반영해야 할지 합의가 안 됐다는 신호다.
전망과 리스크
Qualcomm 입장에서 이번 거래의 성공 조건은 두 가지다. 첫째, Modular 컴파일러가 AI200·AI250 가속기에서 Nvidia GPU와 비교 가능한 추론 성능을 낸다는 점을 데모로 보여야 한다. 둘째, 외부 개발자가 Mojo와 MAX를 채택하도록 생태계를 키워야 한다. 첫 번째는 사내 통제로 풀 수 있지만, 두 번째는 시장의 선택이다.
리스크도 분명하다. Modular는 기술 회사지 매출 회사가 아니다. 9개월 전 $1.6B 밸류에서 2.45배 점프를 정당화할 매출은 없다. Qualcomm은 컴파일러 IP와 인력 비용으로 $3.92B을 지불했고, 이 베팅의 회수는 가속기 매출에서 나와야 한다.
개인적으로 보면, Lattner가 Qualcomm에서 또 한 번 떠나면 거래의 절반은 휘발한다. LLVM 창업자가 한 회사에 오래 머문 적이 없다는 점은 알아둘 만하다. Apple 9년이 그의 최장 기록이고, Google과 Tesla는 1~2년 단위였다. 이 부분이 통합 리스크의 핵심이다.
CUDA 해자가 5년 안에 깎일 수 있을지는 별개의 질문이다. Modular 한 회사가 해낼 수는 없다. 단 PyTorch 2.x의 컴파일 경로 발전, AMD ROCm 7의 PyTorch 지원 정상화, Google JAX의 영향력 확대가 함께 누적되어야 가능한 그림이다. Qualcomm의 인수는 그 흐름에 자본을 보태는 한 사건일 뿐이다.
데이터센터 매출이 핸드셋을 보완하기 시작하는 시점은 2027~2028년이 될 것이다. AI200이 2026년 말 출시되고, AI250이 2027년 mid에 양산되는 일정이 그 시간표를 만든다. Modular 통합이 그 사이에 가속기 출시 일정을 늦추지 않아야 한다는 부담이 추가됐다.
참고