MiniMax M3: SWE-Bench Pro에서 GPT-5.5를 제친 오픈웨이트, 가격은 8분의 1
핵심 요약
중국 AI 스타트업 MiniMax가 6월 1일 M3를 공개했다. SWE-Bench Pro 코딩 벤치마크에서 59.0%를 기록하며 GPT-5.5(58.6%)를 소폭 앞섰다. 가격은 표준 입력 $0.60/100만 토큰으로, GPT-5.5($5.00/100만 토큰) 대비 8.3배 저렴하다.
세 가지 특징이 경쟁사와 다르다. 1M 토큰 컨텍스트 윈도우, 텍스트·이미지·비디오 네이티브 멀티모달, 그리고 오픈웨이트 공개 약속이다. 가중치는 출시 10일 내 배포 예정으로 발표됐다.
벤치마크 수치는 MiniMax 자체 측정이기 때문에 제3자 검증 전에는 보수적으로 해석해야 한다는 지적도 있다. 수치보다 더 눈에 띄는 건 비용이다. 같은 작업을 8배 싸게 돌릴 수 있다면, 성능 격차가 미미한 구간에서 선택은 달라진다.
MSA: 1M 컨텍스트를 싸게 처리하는 방법
M3의 핵심 아키텍처는 MiniMax Sparse Attention(MSA)이다. 전통적인 풀 어텐션은 입력 길이의 제곱에 비례해 연산이 늘어난다. 1M 토큰을 처리하면 연산량이 기하급수적으로 커지는 구조다.
MSA는 이 문제를 KV 블록 선택 방식으로 우회한다. 전체 컨텍스트를 전부 참조하는 대신, 관련성 높은 블록만 선택해 어텐션을 계산한다. MiniMax에 따르면 이 방식으로 1M 컨텍스트에서의 연산량을 이전 세대 대비 약 1/20 수준으로 줄였다. 효율 향상이 API 가격에 그대로 반영된다.
이 설계는 에이전틱 작업에서 의미가 크다. 긴 코드베이스 전체를 컨텍스트에 넣고 여러 파일을 한 번에 수정하거나, 긴 문서를 참조하는 대화를 이어가는 작업이 현실적인 비용 안에서 가능해진다.
벤치마크 현실: 동급 vs. 우위
SWE-Bench Pro는 2026년 기준 소프트웨어 엔지니어링 능력을 측정하는 핵심 척도다. 실제 GitHub PR에 가까운 작업을 시키고, 결과를 채점한다. SWE-Bench Verified(더 쉬운 버전)와 달리 긴 컨텍스트, 여러 파일 수정, PR 워크플로에 가까운 조건을 다룬다.
| 모델 | SWE-Bench Pro | BrowseComp | Terminal-Bench 2.1 |
|---|---|---|---|
| Claude Fable 5 | 80.3% | — | — |
| Claude Opus 4.8 | 69.2% | — | 74.6% |
| Claude Opus 4.7 | 64.3% | ~82% | — |
| MiniMax M3 | 59.0% | 83.5 | 66.0% |
| GPT-5.5 | 58.6% | — | — |
수치만 보면 M3가 GPT-5.5를 0.4포인트 앞선다. 이 차이는 오차 범위에 가깝다. "제쳤다"는 표현보다 "동급"이 더 정확한 표현이다.
BrowseComp(83.5)는 Claude Opus 4.7 대비 우위를 보이는 영역이다. 자율 브라우저 탐색 능력을 측정하는 벤치마크로, 에이전틱 웹 작업에서 강점을 나타낸다.
중요한 단서가 있다. TechTimes를 포함한 일부 매체는 M3 벤치마크 결과가 MiniMax 자체 실행 수치임을 지적하며 독립 검증 전까지 유보가 필요하다고 봤다. AI 모델 회사가 자사 모델에 유리한 조건에서 벤치마크를 실행하는 사례는 이미 여러 차례 확인됐다.
Claude Fable 5(80.3%)와 Claude Opus 4.8(69.2%)과의 격차는 아직 명확하다. M3는 프론티어 최상단이 아니라, GPT-5.5와 같은 선에서 비용 경쟁력으로 차별화를 시도한다.
비용 비교: 같은 성능, 다른 청구서
M3의 진짜 무기는 가격표다.
| 모델 | 입력 ($/100만 토큰) | 출력 ($/100만 토큰) |
|---|---|---|
| GPT-5.5 | $5.00 | $30.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
| Gemini 3.1 Pro | $2.50 | $15.00 |
| MiniMax M3 (표준) | $0.60 | $2.40 |
| MiniMax M3 (론치 프로모) | $0.30 | $1.20 |
GPT-5.5와 비교하면 입력 8.3배, 출력 12.5배 차이다. 동일 작업에 GPT-5.5로 월 $100,000을 쓴다면, M3로는 $8,000~$12,000이 된다는 계산이다.
캐시 리드 비용은 $0.12/100만 토큰으로, 일반 입력 대비 5배 저렴하다. 같은 시스템 프롬프트나 컨텍스트를 반복 사용하는 에이전트 구조에서는 실효 비용을 더 끌어내릴 수 있다. 512K 토큰 초과 입력 구간에서는 $0.60→$0.60(장문 동일)이며 출력도 $2.40으로 유지된다.
론치 프로모션(50% 할인, 신규 계정 7일)을 활용하면 입력 $0.30, 출력 $1.20이 된다. GPT-5.5 대비 출력 기준 25배 차이다.
멀티모달과 오픈웨이트의 실용성
M3는 텍스트, 이미지, 비디오를 단일 모델로 처리한다. 별도 파이프라인이나 모델 전환 없이 세 가지 입력 형식을 혼합해 사용할 수 있다. 영상 내용을 요약하거나, 스크린샷 기반 코드를 생성하거나, 텍스트 지시와 이미지 참조를 결합하는 에이전트 시나리오가 단일 API 호출로 처리된다.
오픈웨이트에 대한 두 가지 시각이 있다. 긍정적 측면에서는 API 의존 없이 자체 인프라에 배포 가능하고, 도메인별 파인튜닝으로 특화 성능을 이끌어낼 수 있으며, 데이터가 외부로 나가지 않아 의료·금융 같은 규제 업종에서 컴플라이언스 문제를 줄일 수 있다.
현실적 제약도 있다. 가중치 공개 시점에 라이선스 조건이 확정되므로, 상업적 사용 여부는 세부 약관 확인 후 판단해야 한다. 또 실제 파라미터 수와 아키텍처 상세가 공개 전이었기 때문에, 로컬 배포에 필요한 GPU 스펙도 가중치 공개 이후에야 파악 가능하다.
이전 M2.5는 수정 MIT 라이선스로 오픈소스를 표방했지만 상업적 제약 조항이 있었다. M3의 오픈웨이트 약속이 실제로 어떤 조건으로 이행되는지 주목할 필요가 있다.
MiniMax라는 회사
2021년 설립된 MiniMax는 상하이를 기반으로 한다. 2026년 1월 홍콩 증시에 상장하며 약 $710M을 조달했다. 중국 AI 스타트업 중 상장까지 간 몇 안 되는 사례다.
M2.5(2026년 2월 공개)가 SWE-Bench에서 오픈소스 1위를 기록하며 이름을 알렸고, M3는 그 다음 단계다. M2.5가 "Claude 1/20 비용"으로 화제를 모았다면, M3는 "GPT-5.5 동급 코딩 성능"이라는 더 공격적인 포지셔닝을 택했다.
DeepSeek, Qwen, MiniMax 등 중국 AI 팀들이 비용 효율성을 전면에 내세우는 패턴이 반복되고 있다. 서방 프론티어 모델과 절대 성능에서 격차가 있어도, 비용과 오픈웨이트 조합으로 실용적 선택지를 만드는 전략이다.
전망
M3의 등장이 시장에 주는 메시지는 명확하다. GPT-5.5와 비슷한 코딩 성능을 8배 싸게 제공하는 모델이 오픈웨이트로 풀린다면, 비용에 민감한 스타트업과 개발자 커뮤니티의 선택지가 달라진다.
모든 유스케이스가 최고 성능을 필요로 하지 않는다. 80~90%의 작업은 SWE-bench Pro 59% 수준의 모델로 충분히 처리된다. 그 구간에서 비용이 1/8이 된다면, 선택 기준이 바뀔 수밖에 없다.
단, 세 가지 변수가 남아 있다. 첫째, 독립 기관의 벤치마크 검증이다. MiniMax 자체 수치가 제3자 평가에서도 유지되는지 확인이 필요하다. 둘째, 오픈웨이트 라이선스 조건이다. 상업적 제약이 없는 진정한 개방형인지, M2.5처럼 제한이 따르는지 라이선스 전문 검토가 필요하다. 셋째, OpenRouter에서 이미 서비스 중이고 Fireworks AI에서도 배포가 시작됐다. API 안정성과 레이턴시가 실사용에서 어떻게 나오는지가 최종 판단 기준이 될 것이다.
참고