본문으로 건너뛰기
← 블로그로 돌아가기
AI모델HOT

Claude Sonnet 5 'Fennec'SWE-Bench 82.1%로 코딩 AI의 새 기준을 세우다

5분 읽기
#Claude#Anthropic#SWE-Bench#AI 모델#코딩#Fennec#Opus 4.6#Sonnet 4.6

SWE-Bench 80% 벽이 무너졌다

2026년 2월 3일, Anthropic이 Claude Sonnet 5를 공개했습니다. 내부 코드명 Fennec. Vertex AI 에러 로그에서 claude-sonnet-5@20260203이라는 모델 ID가 유출되며 사전에 소문이 돌았지만, 실제 성능은 예상을 넘었습니다.

SWE-Bench Verified에서 82.1% 해결률을 기록했습니다. 이전까지 어떤 모델도 넘지 못했던 80% 벽을 처음으로 돌파한 수치입니다. Vals AI의 독립 검증을 거친 결과이기도 합니다. 참고로 Anthropic의 자사 Opus 4.5가 80.9%, OpenAI의 GPT-5가 약 78%대에 머물러 있었습니다.

82.1%가 실무에서 의미하는 것 — 원시 버그 리포트를 받아서 패치를 작성하고, 테스트를 돌리고, 수정을 검증하는 일련의 과정을 첫 시도에 성공할 확률이 10건 중 8건 이상이라는 뜻입니다.

스펙과 가격: Opus급 성능, Opus의 1/5 가격

Sonnet 5의 핵심 사양을 정리하면 다음과 같습니다.

항목Claude Sonnet 5Claude Opus 4.5 (이전 세대)
SWE-Bench Verified82.1%80.9%
컨텍스트 윈도우1M 토큰200K 토큰
입력 가격$3 / 1M 토큰$15 / 1M 토큰
출력 가격$15 / 1M 토큰$75 / 1M 토큰

가격이 눈에 들어옵니다. Opus 4.5 대비 약 80% 저렴합니다. 컨텍스트 윈도우는 5배 넓어져 1M 토큰을 지원합니다. 전체 코드베이스를 한 번에 읽을 수 있는 수준이라, Anthropic은 이를 "repository-level understanding"이라고 표현했습니다.

API, Claude Pro($20/월), Google Vertex AI에서 모두 사용 가능합니다.

2월의 Anthropic: Opus 4.6, 그리고 Sonnet 4.6까지

Sonnet 5 공개 이후 Anthropic의 행보는 더 빨라졌습니다.

  • 2월 5일: Claude Opus 4.6 출시. Agent Teams 기능(병렬 태스크 처리), 1M 컨텍스트 윈도우 베타, 128K 출력 토큰 지원. Finance Agent 벤치마크 1위를 기록했습니다.
  • 2월 17일: Claude Sonnet 4.6 출시. 코딩과 계획 수립 능력이 개선됐고, SWE-Bench에서 80.2~83.3% 범위를 보이며 Opus급 성능을 중간 가격대에 제공합니다. Free와 Pro 플랜의 기본 모델로 탑재됐습니다.

12일 간격으로 두 모델을 추가 출시한 셈입니다. Sonnet 4.6는 GPT-5.1과 비교해 코딩 태스크에서 우위(82.1~83.3% vs 76.3%)를 보이고, 컨텍스트 윈도우도 1M vs 128K로 큰 차이가 납니다.

개발자에게 달라지는 것

Sonnet 5의 핵심 기능 중 실무와 직결되는 부분이 있습니다.

에이전틱 자율성(Agentic Autonomy): 멀티 스텝 워크플로우를 자율적으로 수행합니다. 단순 코드 생성을 넘어, 에러를 식별하고 디버깅까지 자동으로 처리하는 자기 교정(self-correcting) 실행 환경을 내장했습니다.

Dev Team 모드: 전문화된 서브 에이전트를 생성해 병렬로 작업하는 기능입니다. 하나의 프롬프트로 여러 파일을 동시에 수정하거나, 테스트와 구현을 병행할 수 있습니다.

1M 컨텍스트의 실질적 의미: 대형 모노레포의 코드를 한 번에 로드해서 파일 간 의존성을 놓치지 않는다는 점이 가장 실용적인 변화입니다.

전망

Anthropic이 한 달에 세 모델을 쏟아낸 2026년 2월은, AI 코딩 도구 시장의 전환점으로 기억될 가능성이 높습니다. SWE-Bench 80%대가 표준이 되면서, 경쟁사들도 비슷한 수준을 맞춰야 하는 압박을 받게 됩니다.

개인적으로는 가격 구조의 변화가 가장 인상적입니다. Opus급 성능을 Sonnet 가격에 쓸 수 있다는 건, AI 코딩 도구의 접근성이 한 단계 낮아졌다는 의미입니다. 이 추세가 계속된다면, 2026년 하반기에는 SWE-Bench 90%를 논의하게 될 수도 있습니다.


참고

관련 포스트