본문으로 건너뛰기
HOTAIMODEL

Mistral Medium 3.5, 128B 오픈 웨이트 모델로 코딩 에이전트 시대를 열다

7 MIN READBY JJY
#Mistral AI#Medium 3.5#오픈 웨이트#Vibe#코딩 에이전트#SWE-Bench#Le Chat

핵심 요약

Mistral AI가 2026년 4월 29일 128B 파라미터 dense 모델 Mistral Medium 3.5를 오픈 웨이트(수정 MIT 라이선스)로 공개했습니다. 기존 Medium 3.1, Magistral, Devstral 2 세 개 모델을 하나로 통합한 이 모델은 SWE-Bench Verified 77.6%를 기록하며 오픈 웨이트 진영에서 코딩 벤치마크 1위를 차지했습니다. 동시에 공개된 Vibe 리모트 에이전트는 코딩 세션을 클라우드에서 비동기로 실행하고, 작업이 끝나면 GitHub PR까지 자동으로 열어줍니다.

세 모델을 하나로: Medium 3.5의 구조

Medium 3.5 이전까지 Mistral의 라인업은 복잡했습니다. 범용 대화는 Medium 3.1, 추론은 Magistral, 코딩은 Devstral 2. 개발자 입장에서 용도마다 모델을 갈아끼워야 했습니다.

Medium 3.5는 이 셋을 하나의 dense 128B 트랜스포머로 합쳤습니다. 컨텍스트 윈도우는 256K 토큰. MoE가 아닌 dense 아키텍처를 선택한 점이 눈에 띕니다. 추론 비용이 높아지는 대신, 라우팅 오버헤드 없이 일관된 성능을 낸다는 판단입니다.

멀티모달도 지원합니다. 텍스트와 이미지를 함께 처리할 수 있고, 추론 강도(reasoning effort)를 요청별로 조절할 수 있어 간단한 채팅에는 빠르게, 복잡한 에이전틱 작업에는 깊게 사고하도록 설정할 수 있습니다.

벤치마크: 오픈 웨이트 코딩 1위, 하지만 빠진 것이 있다

가장 주목할 수치는 SWE-Bench Verified **77.6%**입니다.

모델SWE-Bench Verified
Claude Sonnet 4.679.6%
Mistral Medium 3.577.6%
Devstral 272.2%
Qwen 3.5 397B~72%
GPT-4o~69%

오픈 웨이트 모델 중에서는 압도적 1위. 클로즈드 소스까지 포함해도 Claude Sonnet 4.6(79.6%)에 근접합니다. τ³-Telecom 에이전틱 벤치마크에서도 91.4%를 기록했습니다.

그런데 이상한 점이 있습니다. MMLU, GPQA, AIME, HumanEval 같은 표준 범용 벤치마크가 하나도 공개되지 않았습니다. 프론티어 모델 출시에서 이런 수치를 빼는 건 흔치 않습니다. 코딩 특화 모델이라는 포지셔닝이 분명한 만큼, 범용 성능에서는 자신이 없다는 신호일 수 있습니다.

Vibe: 코딩 에이전트가 클라우드로 간다

Medium 3.5와 함께 공개된 Vibe 리모트 에이전트가 어쩌면 모델보다 더 큰 변화입니다.

기존 AI 코딩 도구는 로컬에서 동기 방식으로 작동합니다. 개발자가 터미널 앞에 앉아 있어야 하고, 한 번에 하나의 작업만 가능합니다. Vibe는 이 구조를 뒤집었습니다.

동작 방식은 이렇습니다.

  1. CLI 또는 Le Chat에서 코딩 작업을 지시
  2. 세션이 클라우드의 격리된 샌드박스에서 비동기 실행
  3. 여러 세션을 동시에 병렬 실행 가능
  4. 진행 중 파일 diff, 도구 호출, 진행 상태를 실시간 확인
  5. 완료되면 GitHub에 PR을 자동 생성하고 알림

특히 "세션 텔레포트" 기능이 실용적입니다. 로컬 CLI에서 시작한 세션을 중간에 클라우드로 올릴 수 있습니다. 세션 히스토리와 작업 상태가 그대로 유지됩니다. 퇴근 전 작업을 클라우드로 넘기고, 다음 날 결과만 확인하는 워크플로우가 가능해집니다.

Le Chat Work 모드: 에이전틱 AI 어시스턴트

Le Chat에도 Work 모드가 추가되었습니다. Medium 3.5를 기본 모델로 사용하며, 멀티스텝 작업을 도구를 병렬로 호출하면서 자율적으로 처리합니다.

단순 질의응답을 넘어서, 리서치부터 코드 작성, 파일 정리까지 여러 단계가 필요한 작업을 한 번의 지시로 끝낼 수 있다는 게 핵심입니다. OpenAI의 ChatGPT Deep Research, Anthropic의 Claude Agent Teams와 같은 흐름입니다. 프론티어 AI 기업들이 모두 "에이전틱" 방향으로 수렴하고 있습니다.

가격: 50% 저렴하지만, 전작 대비 4배 인상

La Plateforme API 기준 Medium 3.5의 가격은 다음과 같습니다.

항목Medium 3.5Claude Sonnet 4.5GPT-4o
Input (1M 토큰)$1.50$3.00~$2.50
Output (1M 토큰)$7.50$15.00~$10.00

경쟁 모델 대비 50% 저렴한 것은 사실입니다. 하지만 전작 Medium 3(Input $0.40, Output $2.00) 대비로는 약 4배 인상입니다. dense 128B 모델의 추론 비용, 256K 컨텍스트, 비전 기능 추가가 가격 상승의 원인이지만, 커뮤니티 일부에서는 비판의 목소리가 나왔습니다.

오픈 웨이트이기 때문에 자체 호스팅이라는 대안이 있습니다. GPU 4장이면 구동 가능합니다. API 비용이 부담되는 팀이라면 온프레미스 배포를 고려할 수 있습니다.

유럽발 AI의 의미

Mistral AI는 파리에 본사를 둔 EU 기업입니다. 미국의 OpenAI, Anthropic, Google이 지배하는 프론티어 AI 시장에서 유럽 기업이 SWE-Bench 상위권에 오픈 웨이트 모델을 올린 것은 의미가 있습니다.

수정 MIT 라이선스로 공개했다는 점도 중요합니다. 기업이 자체 인프라에서 수정 없이 바로 배포할 수 있습니다. AI 주권, 데이터 주권이 화두인 시점에 "내 서버에서 내 모델을 돌린다"는 선택지를 제공하는 것은 클라우드 API 종속에 대한 대안입니다.

전망

Medium 3.5는 "코딩에 특화된 오픈 웨이트 모델"이라는 포지션을 명확히 잡았습니다. 범용 벤치마크를 공개하지 않은 건 약점이지만, 코딩과 에이전틱 작업에서만큼은 128B dense라는 효율적인 크기로 프론티어급 성능을 낸다는 점은 주목할 가치가 있습니다.

개인적으로는 Vibe 리모트 에이전트의 방향성이 더 눈에 들어옵니다. "AI가 코드를 대신 짜준다"에서 "AI가 알아서 작업하고 PR을 올린다"로 넘어가는 전환점입니다. 개발자의 역할이 "코드 작성자"에서 "코드 리뷰어"로 바뀌는 미래가 점점 구체화되고 있습니다.

참고

Share
JJY
// AUTHORJJY

AI · WEB SECURITY · DEV ENV

GH

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

// RELATED

관련 포스트