AI 에이전트, 자율 업무 시대를 열다METR 보고서가 말하는 것들
AI가 사람 없이 얼마나 오래 일할 수 있을까. 이 질문에 대한 답이 빠르게 바뀌고 있습니다.
METR(Model Evaluation and Threat Research)이 2026년 1월 29일 발표한 Time Horizon 1.1 보고서는 AI 자율 작업 능력의 현주소를 수치로 보여줍니다.
🔬 AI 자율 작업 능력, 89일마다 두 배로
METR은 AI 모델이 사람의 도움 없이 독립적으로 복잡한 작업을 수행할 수 있는 시간을 측정합니다. 최신 보고서의 핵심 수치는 이렇습니다.
- Claude Opus 4.5: 사람 기준 약 320분(5시간 20분)에 해당하는 작업을 자율 수행
- GPT-5: 약 214분(3시간 34분)에 해당하는 작업을 자율 수행
- 능력 배가 주기: 약 89일 — 이전 추정치(약 7개월)보다 20% 빨라짐
주로 코딩과 코딩 관련 작업에서 측정된 수치입니다. 하지만 METR은 이 원리가 지식 노동 전반에 적용될 수 있다고 봅니다.
SmarterX의 CEO Paul Roetzer는 이렇게 말합니다. "6개월마다 두 배씩 좋아지는 추세다. 둔화될 기미가 보이지 않는다."
⚔️ Codex 5.3 vs Opus 4.6 — 두 가지 에이전트 철학
2026년 2월 7일, OpenAI의 GPT-5.3 Codex와 Anthropic의 Claude Opus 4.6이 같은 날 출시되었습니다. 두 모델은 "자율 에이전트"라는 같은 목표를 향하지만, 접근 방식이 다릅니다.
Claude Opus 4.6의 전략은 "넓게"입니다.
- 100만 토큰 컨텍스트 윈도우
- Agent Teams 기능으로 복잡한 프로젝트를 병렬 서브태스크로 분해
- 수백만 토큰 세션에서도 안정적 성능 유지
Codex 5.3의 전략은 "깊게"입니다.
- 복잡하고 장시간 걸리는 작업에 대한 자율성 극대화
- 제어된 샌드박스 환경에서의 안정적 장기 운용
- 모듈형 스킬 매니페스트로 능력을 점진적으로 확장
어느 쪽이 더 낫다고 단정하기 어렵습니다. 선택은 사용 패턴에 달려 있습니다. 여러 작업을 동시에 맡기고 싶다면 Claude, 하나의 복잡한 작업을 끝까지 맡기고 싶다면 Codex — 이런 구분이 생기고 있습니다.
📉 시장은 이미 반응하고 있다
AI 기술의 진보가 월가에도 영향을 미치고 있습니다.
Bloomberg 분석에 따르면, 2026년 1분기 기업 실적 발표에서 AI disruption 관련 언급이 전 분기 대비 거의 2배 증가했습니다. 실적 자체는 양호한데도 소프트웨어 관련 주식은 매도세를 보였습니다. 시장이 장기적 위험을 선반영하고 있다는 뜻입니다.
Morgan Stanley는 미국 소프트웨어 산업의 1.5조 달러 규모 신용 시장에 대한 위협을 경고했습니다. AI 에이전트가 지식 집약적 업무를 자동화하면, 기존 SaaS 비즈니스 모델 자체가 흔들릴 수 있다는 논리입니다.
중국의 MiniMax는 M2.5 시리즈로 서방 모델의 약 1/20 비용에 유사한 성능을 내고 있습니다. SmarterX 분석에 따르면, 연간 1만 달러 수준에서 자율 에이전트를 상시 운용할 수 있다는 추정도 나옵니다. 비용 장벽이 낮아지면 채택 속도는 더 빨라질 가능성이 높습니다.
🧭 개발자가 준비해야 할 것
METR 보고서의 저자들은 이 질문을 던집니다. "당신이 1시간, 2시간, 10시간 걸리는 작업 중 — AI가 대신할 수 있는 건 어디까지인가?"
현실적인 대응 방향은 이렇습니다.
- 에이전트 도구를 직접 써보는 것이 우선입니다. Claude Code, Codex, Cursor 같은 도구를 실무에 적용해보면 가능성과 한계를 동시에 체감할 수 있습니다.
- 검증 역량이 더 중요해집니다. AI가 생성한 결과물을 판단하고 수정하는 능력 — 이것이 개발자의 핵심 가치가 되고 있습니다.
- 모듈형 테스트와 모니터링 습관을 갖추세요. 에이전트의 자율성이 높아질수록, 중간 점검 없이 방치하는 건 위험합니다.
"에이전트가 대부분의 산업에서 여전히 불안정하다"는 Roetzer의 지적도 기억할 필요가 있습니다. 코딩 외 영역에서는 아직 human-in-the-loop가 필수입니다. 하지만 그 경계선은 매 분기마다 이동하고 있습니다.
변화의 속도가 빠른 만큼, 관망보다는 직접 부딪혀보는 쪽이 유리합니다.
참고