Mercury 2초당 1,000 토큰, 디퓨전 LLM이 속도의 벽을 깨다
초당 1,000 토큰의 의미
2026년 2월 24일, Inception Labs가 Mercury 2를 출시했습니다. NVIDIA Blackwell GPU에서 초당 1,009 토큰을 생성하며, 기존 속도 최적화 LLM 대비 5배 이상 빠릅니다.
비교하면 이렇습니다:
| 모델 | 초당 토큰 | 배수 |
|---|---|---|
| Mercury 2 | ~1,009 | 기준 |
| Claude 4.5 Haiku | ~89 | 약 11배 느림 |
| GPT-5 Mini | ~71 | 약 14배 느림 |
사람이 읽는 속도보다 수백 배 빠른 이 속도는 실시간 대화형 AI, 대규모 배치 처리, 코드 생성 등에서 병목을 근본적으로 해소합니다.
자동회귀를 벗어난 디퓨전 방식
기존 LLM(GPT, Claude, Gemini 등)은 모두 자동회귀(autoregressive) 방식입니다. 토큰을 하나씩, 순서대로 생성합니다. 1,000 토큰을 만들려면 1,000번의 순차 연산이 필요합니다.
Mercury 2는 디퓨전(diffusion) 방식을 사용합니다. 이미지 생성 AI(Stable Diffusion, DALL-E)에서 쓰이는 것과 같은 원리입니다:
- 전체 출력의 대략적인 초안(노이즈)에서 시작
- 여러 토큰을 동시에 정제(denoising)
- 반복할수록 출력이 선명해짐
핵심은 병렬 처리입니다. 자동회귀가 한 줄씩 글을 쓰는 것이라면, 디퓨전은 전체 페이지를 동시에 흐릿하게 그린 뒤 점점 선명하게 만드는 방식입니다.
품질은 충분한가
속도가 빠르면 품질이 떨어지지 않을까? Mercury 2의 벤치마크를 보면:
| 벤치마크 | Mercury 2 | Claude 4.5 Haiku | GPT 5.2 Mini |
|---|---|---|---|
| AIME 2025 | 91.1 | 88.7 | 85.3 |
| GPQA | 73.6 | 72.1 | 70.8 |
| LiveCodeBench | 67.3 | 69.4 | 65.2 |
| IFBench | 71.3 | 73.0 | 68.5 |
추론 품질에서 Claude 4.5 Haiku, GPT 5.2 Mini와 경쟁 범위 안에 있으면서 처리량은 10배 이상 높습니다. 품질 대비 비용 효율성에서 압도적인 우위입니다.
누가 쓸 수 있나
Mercury 2는 Inception API를 통해 직접 접근 가능하며, AWS Bedrock과 Google Cloud Vertex AI에서도 이용할 수 있습니다. 엔터프라이즈 고객을 위한 호스팅 옵션이 이미 준비된 상태입니다.
전망
Mercury 2는 "LLM은 반드시 자동회귀여야 한다"는 업계의 암묵적 전제를 깨뜨린 모델입니다. 디퓨전 방식이 텍스트 생성에서도 실용적임을 증명한 최초의 상용 사례입니다.
개인적으로는 Mercury 2 자체보다 이것이 촉발할 패러다임 경쟁에 주목합니다. OpenAI, Anthropic, Google 모두 자동회귀 아키텍처에 수십억 달러를 투자한 상황에서, 디퓨전 방식이 속도와 비용에서 구조적 우위를 보여준다면 업계 전체의 연구 방향이 바뀔 수 있습니다.
참고