HOTAIMODEL

Claude Opus 4.7, 능력을 일부러 줄인 최초의 프론티어 모델

2026년 4월 17일6 MIN READBY JJY

#Anthropic#Claude Opus 4.7#AI 안전#SWE-bench#사이버보안#Mythos#프론티어 모델

핵심 요약

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 공개했습니다. SWE-bench Verified 87.6%, SWE-bench Pro 64.3%로 Gemini 3.1 Pro와 GPT-5.4를 제치고 공개 모델 중 코딩 벤치마크 1위를 차지했습니다. 그런데 이번 릴리스의 진짜 뉴스는 벤치마크가 아닙니다. Anthropic은 Opus 4.7의 사이버보안 능력을 학습 과정에서 의도적으로 줄였다고 밝혔습니다. 프론티어 모델에서 특정 능력을 선별적으로 억제한 공식 사례는 이번이 처음입니다.

관련 글: Claude Mythos Preview, AI가 27년 묵은 제로데이를 찾아낸 날

Mythos의 그림자: 왜 능력을 줄여야 했나

9일 전인 4월 7일, Anthropic은 Claude Mythos Preview를 발표했습니다. 이 모델은 SWE-bench Verified 93.9%, USAMO 2026 97.6%를 기록하며 모든 벤치마크를 압도했습니다. 문제는 사이버보안이었습니다.

UK AI Safety Institute(AISI)의 평가 결과, Mythos Preview는 전문가급 사이버 공격 과제에서 73% 성공률을 보였습니다. 이전까지 어떤 AI 모델도 풀지 못한 수준입니다. 더 충격적인 건 AISI의 32단계 기업 네트워크 공격 시뮬레이션("The Last Ones")을 10회 중 3회 완주한 것입니다. AI 모델 최초의 기록입니다.

Firefox 147 JavaScript 엔진 취약점을 대상으로 한 익스플로잇 테스트에서는 Opus 4.6이 2건의 익스플로잇을 생성한 반면, Mythos Preview는 181건을 만들어냈습니다. 90배가 넘는 격차입니다.

Anthropic은 Mythos를 일반 공개하지 않고, Project Glasswing이라는 제한적 컨소시엄(AWS, Apple, Google, Microsoft, CrowdStrike 등 10개 주요 기업 + 40개 이상 추가 기관)을 통해서만 배포했습니다. 이 결정이 Opus 4.7의 설계 방향을 결정지었습니다.

차등 능력 제거: 새로운 안전 기법

Anthropic은 Opus 4.7에 "differential capability reduction"이라는 기법을 적용했습니다. 학습 과정에서 사이버보안 관련 능력을 선별적으로 줄이되, 코딩·추론·비전 같은 일반 능력은 최대한 보존하는 방식입니다.

CNBC에 따르면, Anthropic은 고위험 사이버보안 사용 패턴을 자동 감지·차단하는 세이프가드를 Opus 4.7에 내장했습니다. 합법적인 사이버보안 목적으로 모델을 사용하려는 보안 전문가는 별도 검증 프로그램을 통해 신청할 수 있습니다.

이 접근법은 기존의 "전체 능력 제한" 또는 "출력 필터링"과 다릅니다. 학습 단계에서 능력 자체의 분포를 조정한 것이라, 프롬프트 엔지니어링이나 탈옥으로 우회하기가 훨씬 어렵습니다. Council on Foreign Relations는 이를 "AI 안전의 변곡점"이라고 평가했습니다.

벤치마크: Mythos 빼고 전부 1위

사이버 능력을 줄였음에도 Opus 4.7의 일반 성능은 공개 모델 중 최고 수준입니다.

벤치마크	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	87.6%	80.8%	N/A	80.6%
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%
CursorBench	70%	58%	N/A	N/A
MCP-Atlas 도구 사용	77.3%	75.8%	68.1%	73.9%

VentureBeat는 Opus 4.7이 "가장 강력한 공개 LLM 자리를 근소한 차이로 되찾았다"고 보도했습니다.

코딩 외 영역에서도 개선이 눈에 띕니다. 다단계 에이전틱 추론에서 14% 향상, 도구 호출 오류는 3분의 1로 줄었습니다.

비전: 3배 해상도의 의미

Opus 4.7은 최대 2,576px 장변 이미지를 처리합니다. Opus 4.6 대비 픽셀 수 기준 3배 이상입니다.

XBOW의 시각 정확도 벤치마크에서 98.5%를 기록했습니다. Opus 4.6의 54.5%와 비교하면 거의 두 배 가까운 점프입니다. 이 수준의 비전 능력은 자율 침투 테스트 워크플로우처럼 고밀도 스크린샷 분석이 필요한 작업을 처음으로 실용화했다는 평가를 받습니다.

xhigh: 새로운 추론 강도

기존 high와 max 사이에 xhigh라는 추론 강도 레벨이 추가됐습니다. 어려운 문제에서 추론 품질과 응답 속도 사이의 트레이드오프를 더 세밀하게 조절할 수 있습니다.

가격은 Opus 4.6과 동일한 입력 $5 / 출력 $25(백만 토큰 기준)입니다. Amazon Bedrock, Google Vertex AI, Microsoft Foundry에서 모두 사용 가능합니다.

전망

Opus 4.7은 단순한 성능 업데이트가 아닙니다. "모든 능력을 최대화"하던 프론티어 모델 개발의 패러다임에 의문을 던진 첫 사례입니다.

Mythos가 보여준 건 AI의 사이버보안 능력이 인간 전문가를 넘어설 수 있다는 사실이고, Opus 4.7이 보여준 건 그 능력을 선별적으로 다룰 수 있다는 가능성입니다. 물론, 차등 능력 제거가 완벽한 해법인지는 아직 모릅니다. 다른 연구팀이 같은 수준의 사이버 능력을 가진 모델을 제한 없이 공개할 가능성도 있습니다.

개인적으로는, 이 접근법이 향후 프론티어 모델의 표준 출하 방식이 될 가능성이 높다고 봅니다. "만들 수 있다"와 "공개해야 한다"가 분리되는 시대가 시작된 것 같습니다.

참고

// AUTHORJJY

AI · WEB SECURITY · DEV ENV

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

// RELATED

Claude Opus 4.7, 능력을 일부러 줄인 최초의 프론티어 모델

핵심 요약

Mythos의 그림자: 왜 능력을 줄여야 했나

차등 능력 제거: 새로운 안전 기법

벤치마크: Mythos 빼고 전부 1위

비전: 3배 해상도의 의미

xhigh: 새로운 추론 강도

전망

관련 포스트

Claude Opus 4.8: '가장 정직한' 프론티어 모델과 1,000개 서브에이전트의 데뷔

트럼프 AI 감독 행정명령 막판 보류: '공개 전 90일 정부 검토' 자발적 프레임워크

Claude Mythos Preview, AI가 27년 묵은 제로데이를 찾아낸 날