Gemma 4 MTP 드래프터: 추론 속도 최대 3배, 출력은 1비트도 다르지 않다
핵심 요약
2026년 5월 5일, Google이 Gemma 4 전 라인업을 대상으로 MTP(Multi-Token Prediction) 드래프터를 공개했다. 단순히 빠른 버전을 내놓은 게 아니다. 출력은 기존 Gemma 4와 bit-for-bit 동일하면서 추론 속도는 하드웨어에 따라 최대 3배까지 끌어올린다.
핵심은 **투기적 디코딩(speculative decoding)**이다. 작은 드래프트 모델이 타겟 모델을 대신해 여러 토큰을 먼저 예측하고, 타겟 모델은 한 번의 순전파로 그것을 통째로 검증한다. 동의하면 드래프트 시퀀스 전체와 추가 토큰 1개를 단 1회 연산으로 출력한다.
Gemma 4가 공개 6주 만에 6,000만 다운로드를 넘어선 시점에 나온 업데이트다. Apache 2.0 라이선스로 제공되며, Hugging Face와 Kaggle에서 즉시 받을 수 있다.
MTP 드래프터의 작동 원리
토큰을 하나씩 순서대로 생성하는 표준 자기회귀(autoregressive) 추론은 GPU 연산 능력의 상당 부분을 낭비한다. 메모리 대역폭에 묶여있기 때문이다. 추론 병목은 사실 연산이 아니라 메모리 읽기에 있다.
MTP는 이 구조를 우회한다. 드래프트 모델은 타겟 모델의 KV 캐시와 중간 활성화(activation)를 공유하기 때문에 컨텍스트를 다시 계산할 필요가 없다. 타겟 모델이 이미 처리한 문맥을 그대로 빌려 쓴다.
투기적 디코딩의 흐름은 세 단계다:
- 드래프트: 작은 드래프트 모델이 N개 토큰을 예측한다
- 검증: 타겟 모델이 단 한 번의 순전파로 N개를 병렬 검증한다
- 수락: 타겟 모델이 동의하면 N+1개 토큰을 단 1회 연산 비용으로 출력한다
타겟 모델이 거부하는 경우엔 첫 번째로 틀린 토큰에서 되감아 다시 시작한다. 어떤 시나리오에서든 최종 출력은 타겟 모델이 직접 생성한 것과 완전히 동일하다. 샘플링 온도가 있어도, 추론 모드여도 결과가 달라지지 않는다.
하드웨어별 실제 성능: "3배"는 어떤 조건에서 나오나
3배라는 숫자는 최상의 조건이다. 구체적으로는 26B MoE 모델을 NVIDIA RTX PRO 6000 GPU에서 돌렸을 때의 결과다. 일반 개발자 하드웨어에서는 1.7배에서 2.2배 수준이 현실적이다.
| 조건 | 속도 향상 |
|---|---|
| 26B MoE, NVIDIA RTX PRO 6000 | ~3.0x |
| 고사양 소비자 GPU (예: RTX 4090급) | ~2.2x |
| 중간급 소비자 GPU | ~1.7x |
| 기준선 (MTP 없음) | 1.0x |
1.7배도 무시할 수 없는 수치다. 같은 하드웨어에서 처리량이 70% 늘어난다는 뜻이고, 이는 비용 절감이나 응답 지연 단축으로 직결된다.
엣지 모델인 E2B와 E4B는 별도 최적화를 추가했다. 임베더(embedder) 내부에 효율적인 클러스터링 기법을 적용해서 드래프팅 자체의 연산 부담을 줄였다.
생태계 지원 범위
MTP 드래프터는 처음부터 주요 추론 프레임워크 전체를 지원하도록 설계됐다. 오늘 받아서 바로 쓸 수 있는 스택은 다음과 같다:
- transformers (Hugging Face 기본 라이브러리)
- MLX (Apple Silicon 최적화)
- vLLM (프로덕션 서빙 표준)
- SGLang (구조화 생성)
- Ollama (로컬 실행)
별도 양자화나 파인튜닝 없이 기존 Gemma 4 설정에서 드래프트 모델 경로만 추가하면 된다. 배포 파이프라인을 바꿀 필요가 없다.
Gemma 4 MTP 드래프터는 Apache 2.0 라이선스다. 상용 프로덕트에도 제약 없이 쓸 수 있다.
왜 지금 이 업데이트인가
Gemma 4 출시 6주 만에 6,000만 다운로드는 오픈소스 LLM 역사에서 상당히 빠른 채택 속도다. 그만큼 실제 프로덕션 배포 사례가 빠르게 쌓였고, 배포자들의 가장 큰 불만은 결국 추론 비용이었을 가능성이 높다.
클라우드 API를 쓰지 않고 Gemma를 직접 서빙하면 GPU 시간이 곧 비용이다. MTP로 처리량이 두 배가 되면 같은 비용으로 두 배의 요청을 처리할 수 있다. 로컬 배포 팀 입장에서는 서버 대수를 절반으로 줄일 수 있다는 의미기도 하다.
타이밍이 흥미롭다. OpenAI와 Anthropic이 각각 GPT-5.5 Instant와 Claude Opus 4.7로 클라우드 API 시장을 치고 들어오는 시점에, Google은 오픈소스 진영에서 추론 효율이라는 다른 전선을 열었다.
필자의 시각
MTP는 새로운 기술이 아니다. 투기적 디코딩은 수년 전부터 연구됐고, 실제로 일부 프레임워크에서 실험적으로 쓰이고 있었다. Google이 한 일은 이걸 공식적으로, 그리고 검증된 품질 보장과 함께 패키징한 것이다.
"bit-for-bit identical"이라는 표현에 주목할 필요가 있다. 속도를 위해 출력을 조금 희생하는 근사치 방식이 아니라는 뜻이다. 이 보장이 없으면 프로덕션 배포자들은 MTP를 도입할 수 없다. 출력이 달라지면 테스트를 전부 다시 써야 하기 때문이다.
로컬 AI 시장에서 추론 속도는 곧 사용자 경험이다. E2B처럼 스마트폰에서 돌아가는 모델이 1.7배 빨라지면, 체감 반응 지연은 0.6초에서 0.35초로 줄어든다. 숫자로 보면 작아 보이지만, 대화형 UI에서는 그 차이가 "답답함"과 "자연스러움" 사이를 가른다.
참고