Microsoft MAI 7종 공개: OpenAI 의존을 줄이려는 자기충족 전략의 신호탄
핵심 요약
Microsoft가 2026년 6월 2일 Build 2026 키노트에서 자체 개발한 7종의 MAI(Microsoft AI) 모델을 한꺼번에 공개했다. 핵심은 두 가지다.
- MAI-Thinking-1: 첫 자체 추론 모델. 35B active 파라미터 sparse MoE. AIME 2025에서 97.0%, AIME 2026에서 94.5%. SWE-Bench Pro에서 Claude Opus 4.6과 동급이다.
- MAI-Code-1-Flash: 첫 자체 코딩 모델. 5B active / 137B total MoE. SWE-Bench Pro 51.2%로 Claude Haiku 4.5(35.2%)를 16p 앞선다. GitHub Copilot 전 티어에 배포 시작.
두 모델 모두 OpenAI 모델에서의 distillation 없이 처음부터 학습했다. Microsoft AI를 이끄는 Mustafa Suleyman은 이번 발표를 "장기 자기충족(long-term self-sufficiency)"의 출발점이라고 표현했다. OpenAI는 여전히 최대 파트너지만, 단일 파트너 의존에서 벗어나려는 신호가 더 분명해졌다.
MAI-Thinking-1: 첫 자체 추론 모델
스펙
| 항목 | 값 |
|---|---|
| 아키텍처 | sparse Mixture of Experts |
| Active 파라미터 | 35B |
| Total 파라미터 | ~1T |
| Context window | 256K tokens |
| 학습 데이터 | enterprise-grade, commercially licensed |
| Distillation | 없음 (from scratch) |
| 가용성 | Microsoft Foundry private preview, MAI Playground public preview 예정 |
35B active로 Claude Opus 4.6, Sonnet 4.6 같은 훨씬 큰 모델과 동급의 성능을 노린다는 점이 핵심이다.
벤치마크
- AIME 2025: 97.0% (수학·다단계 과학 추론 벤치마크)
- AIME 2026: 94.5% (신규 벤치마크)
- SWE-Bench Pro: Microsoft 발표 기준 Claude Opus 4.6과 매칭
- Surge 블라인드 평가: Claude Sonnet 4.6보다 선호됨
Microsoft는 독립 평가 파트너인 Surge AI를 통해 블라인드 side-by-side 평가를 진행했다고 밝혔다. 자체 발표 수치임을 감안해도, 첫 추론 모델이 프론티어급에 근접했다는 메시지는 무겁다.
핵심 차별점: clean data lineage
Suleyman은 키노트와 인터뷰에서 "다른 회사 모델로부터의 distillation 없이 처음부터 학습했다"는 점을 강조했다. 이는 엔터프라이즈 고객 중 데이터 출처(data lineage)의 법적 명확성을 중시하는 곳들을 겨냥한 포지셔닝이다. 법무·금융·의료 분야에서 모델 학습 데이터의 라이선스 클린함은 협상 테이블에서 점점 중요한 변수가 되고 있다.
MAI-Code-1-Flash: GitHub Copilot에 들어간 코딩 모델
스펙
| 항목 | 값 |
|---|---|
| 아키텍처 | sparse MoE |
| Active 파라미터 | 5B |
| Total 파라미터 | 137B |
| Context window | 256K tokens |
| 학습 토큰 | 10T+ |
| 가격 (입력) | $0.75 / 1M tokens |
| 가격 (캐시 입력) | $0.075 / 1M tokens |
| 가격 (출력) | $4.50 / 1M tokens |
가격은 Claude Haiku, GPT-5 Nano급에 가깝다. 모델 카드에는 가격 확정 전이라는 단서가 붙어 있다.
벤치마크
| 벤치마크 | MAI-Code-1-Flash | Claude Haiku 4.5 | 차이 |
|---|---|---|---|
| SWE-Bench Pro | 51.2% | 35.2% | +16.0p |
| Adversarial reasoning (186Q, Microsoft 자체) | 85.8% | 공개 안 됨 | : |
| SWE-Bench Verified 토큰 효율 | 최대 60% 적게 사용 | 기준선 | : |
5B active 모델이 Anthropic의 동급 소형 모델을 16p 앞선다는 주장이다. 특히 "동일 난이도 문제에서 60% 적은 토큰으로 해결한다"는 효율성 지표는 비용을 신경 쓰는 개발자에게 직접적인 매력 포인트다.
배포 방식
- GitHub Copilot Free, Pro, Pro+, Max 전 티어에 순차 배포
- VS Code의 model picker, 그리고 새로운 Auto router에서 자동 선택 가능
- 2026년 6월 2일부터 일부 사용자 대상 시작, 수 주에 걸쳐 확대
Auto router는 작업의 종류에 따라 모델을 자동으로 선택하는 메커니즘이다. 작은 코딩 작업은 MAI-Code-1-Flash로, 복잡한 추론이 필요한 작업은 더 큰 모델로 자동 라우팅된다. 사용자 입장에서는 모델 선택의 부담이 줄어들지만, 어떤 작업이 어떤 모델로 갈지에 대한 가시성은 줄어드는 트레이드오프가 있다.
나머지 5종 MAI 모델
발표된 7종 중 추론·코딩 모델 2종을 제외한 나머지 5종은 멀티모달과 음성에 집중되어 있다.
| 모델 | 카테고리 | 특징 |
|---|---|---|
| MAI-Image-2.5 | 이미지 생성 | text-to-image와 image-to-image 동시 지원. Arena AI 리더보드 3위 |
| MAI-Image-2.5 Flash | 이미지 생성 (경량) | 빠른 응답 우선 |
| MAI-Voice-2 | 음성 생성 | 15개 이상 언어 추가, 짧은 샘플로 보이스 적응, 오용 방지 장치 |
| MAI-Voice-2 Flash | 음성 생성 (경량) | 저지연 |
| MAI-Transcribe-1.5 | 음성 인식 | 43개 언어, 스트리밍 추가 예정 |
이미지에서는 Microsoft가 Google보다 앞서고, 추론에서는 따라잡는 구도라는 평이 나온다. 7종을 한꺼번에 발표한 이유는 분명하다. 한두 가지 영역이 아닌, 모달리티 전반에 걸친 라인업을 갖추겠다는 선언이다.
자기충족(Self-Sufficiency) 전략
Suleyman이 말한 "stack 전체"
Suleyman은 키노트에서 자기충족이 "stack 전체에 걸쳐" 진행 중이라고 말했다. 구체적으로는
- 모델 설계와 Microsoft 자체 가속기의 co-design
- 자체 학습 인프라
- 자체 RL(reinforcement learning) 프레임워크
이 세 축이 끝에서 끝까지(end-to-end) 최적화되어야 "hill-climbing machine"이 가능하다는 논리다. 단순히 모델을 만드는 것이 아니라, 학습 인프라와 추론 인프라를 동일 회사가 통제할 때 반복 속도가 빨라진다는 주장이다.
OpenAI 의존도 분석
Microsoft는 OpenAI의 최대 투자자이자 최대 컴퓨트 공급자다. Copilot 라인은 GPT 시리즈 위에서 시작됐다. 하지만 최근 흐름을 보면
- OpenAI는 Microsoft 외 컴퓨트 파트너(Oracle 등)를 추가
- OpenAI는 SEC에 비공개 상장 신청서 제출 (2026년 5월)
- Microsoft는 자체 모델 라인 가속
양측이 서로의 의존도를 낮추는 방향으로 움직이고 있다. Microsoft 입장에서는 Copilot이 어떤 외부 모델 가격 인상이나 우선순위 변경에도 휘둘리지 않으려면, 자체 옵션이 반드시 필요하다.
관련 글: OpenAI, SEC 비공개 상장 신청
Copilot의 multi-model 아키텍처
이번 Build에서 Microsoft는 Copilot을 "multi-model platform"으로 재정의했다. OpenAI, Anthropic, 오픈소스, 그리고 MAI 모델이 동시에 라우팅되는 구조다. 사용자 입장에서는 작업에 맞는 최적 모델이 자동 선택되고, Microsoft 입장에서는 단일 벤더 락인을 회피한다. 이는 Copilot이라는 제품을 모델 공급자와 분리하려는 의도적 설계다.
시장 반응과 회의론
긍정적 평가
- 데이터 출처 명확성: 엔터프라이즈 영업에서 즉시 무기가 됨
- GitHub Copilot 통합: 사용자 기반 확보된 채널을 통한 즉시 배포
- 가격 경쟁력: $0.75/M 입력은 Claude Haiku 4.5와 비교해 매력적
- 256K context: 코딩 모델 기준 충분한 길이
회의적 시각
- 자체 발표 벤치마크: Surge 평가도 Microsoft가 비용 부담. 독립 평가 부족
- 공개 가용성 지연: MAI-Thinking-1은 private preview 단계
- 5B vs 137B 혼란: family post와 모델 카드의 파라미터 표기가 달라 초기 혼선 발생
- 첫 자체 추론 모델: AIME에서 강해도 long-horizon 에이전트 태스크에서의 안정성은 검증 필요
The Decoder 등 일부 매체는 "Microsoft가 이미지 생성에서는 Google을 앞섰지만, 추론에서는 여전히 catch-up 모드"라고 평가했다. 첫 추론 모델이라는 출발점을 고려하면 자연스러운 평가다.
개발자 입장에서 봐야 할 것
당장 GitHub Copilot 사용자라면 다음 주 내에 모델 picker에 MAI-Code-1-Flash가 등장할 가능성이 높다. 직접 비교해볼 수 있는 항목
- 간단한 리팩토링·테스트 생성: 5B active 모델이면 충분한지 확인
- 토큰 사용량: 60% 절감 주장이 실제 워크플로에서 재현되는지
- Auto router 동작: 어떤 작업이 자동으로 어떤 모델로 가는지 추적
MAI-Thinking-1은 당장 손에 닿지 않지만, public preview가 열리면 Foundry에서 테스트 가능해진다. Azure 위에 RL 파이프라인을 구축한 팀이라면 자체 RL 프레임워크 통합이 어떻게 노출되는지가 다음 관심사다.
전망
이번 발표는 한 회사가 한꺼번에 7종의 자체 모델을 공개한 사례로서 무게가 다르다. 다만 진짜 시험대는 다음 분기 이후다. 개인적으로 주목하는 지점
- MAI-Thinking-1이 SWE-Bench Pro 같은 자체 발표 벤치마크 외에 ARC-AGI, Frontier Math 등 독립 벤치마크에서 어떻게 나오는가
- Copilot 사용자의 실제 모델 선택 비율 (MAI vs GPT vs Claude)이 어떻게 분포되는가
- OpenAI가 이번 발표에 대해 어떤 카운터를 내놓는가 (가격 인하? 신모델?)
Microsoft가 OpenAI와 결별하려는 것은 아니다. 다만 "OpenAI 없이도 Copilot이 돌아간다"는 옵션을 만드는 작업이 본격화됐다. 이 옵션의 가치는 협상 테이블에서, 그리고 다음 OpenAI 계약 갱신 시점에 가장 크게 드러날 것이다.
참고