Anthropic 'Dreaming': Claude 에이전트가 세션 사이에서 스스로 배운다
핵심 요약
Anthropic이 5월 6일(현지시간) 샌프란시스코에서 열린 Code with Claude 개발자 행사에서 Claude Managed Agents에 세 가지 기능을 공개했다. Dreaming(리서치 프리뷰), Outcomes(퍼블릭 베타), 멀티에이전트 오케스트레이션(퍼블릭 베타)이 그것이다.
핵심은 자율 에이전트의 가장 큰 약점인 "망각 문제"를 정면으로 건드렸다는 점이다. 이전까지 에이전트는 매 세션이 끝나면 배운 것을 잊었다. Dreaming은 세션 간 자동 메모리 큐레이션으로 이 구조적 한계를 해결한다.
관련 글: Anthropic 금융 에이전트 10종 공개
Dreaming이 작동하는 방식
에이전트 세션이 끝나면 Dreaming이 백그라운드에서 실행된다. 지난 세션 로그를 전체적으로 훑으면서 반복된 실수, 여러 에이전트가 독립적으로 수렴한 워크플로, 팀 전체에서 공유된 선호도를 추출한다. 결과물은 일반 텍스트 노트와 구조화된 "플레이북" 형태로 메모리 스토어에 저장된다. 다음 세션의 에이전트는 이 플레이북을 출발점으로 삼는다.
원본 세션 데이터는 건드리지 않는다. Dreaming은 메모리를 덮어쓰지 않고 큐레이션한다. 제어 방식도 사용자가 선택한다. 변경사항을 자동으로 반영하거나, 반영 전에 사람이 먼저 검토하도록 설정할 수 있다.
단일 에이전트가 볼 수 없는 패턴이 있다. 특정 파일 타입 우회법, 100번 반복 후에야 보이는 도구 사용 습관, 팀원 다섯 명 모두가 같은 방식으로 수정한 쿼리. Dreaming은 인간의 수면이 기억을 정리하는 방식처럼, 이 메타 패턴을 세션 간 간격 동안 합성한다. 현재 리서치 프리뷰로 제공 중이다.
Outcomes와 멀티에이전트 오케스트레이션
Outcomes는 에이전트에게 루브릭을 제공하는 기능이다. "이렇게 되면 성공"이라는 기준을 텍스트로 쓰면, 별도의 Grader가 독립된 컨텍스트 윈도우에서 출력물을 채점한다. Grader가 부족한 부분을 구체적으로 지적하면 에이전트가 다시 시도한다. Grader는 에이전트의 추론 과정과 같은 컨텍스트를 공유하지 않기 때문에, 후광 효과 없이 출력 결과만 보고 판단한다.
Anthropic의 내부 벤치마크에서 Outcomes는 표준 프롬프트 루프 대비 태스크 성공률을 최대 10 퍼센트포인트 향상시켰다. 어려운 태스크일수록 개선폭이 컸다. 현재 퍼블릭 베타다.
멀티에이전트 오케스트레이션은 리드 에이전트가 작업을 분해해 전문가 서브에이전트에게 위임하는 구조다. 각 서브에이전트는 독립된 모델, 프롬프트, 툴 세트를 갖는다. 최대 20개 에이전트가 공유 파일시스템 위에서 병렬 작동한다. 리드 에이전트의 컨텍스트에 각 서브에이전트 결과가 합산된다.
배포 히스토리, 에러 로그, 메트릭, 서포트 티켓을 서로 다른 서브에이전트가 동시에 파고드는 장애 분석 시나리오가 대표적인 활용 사례다. 이 기능도 퍼블릭 베타로 제공된다.
현장 수치: Harvey와 Wisedocs
Anthropic이 공식 발표에서 직접 언급한 파트너 사례다.
| 기업 | 업종 | 적용 기능 | 결과 |
|---|---|---|---|
| Harvey | 법률 AI | Dreaming | 태스크 완료율 약 6배 향상 |
| Wisedocs | 의료 문서 검토 | Outcomes | 문서 검토 속도 50% 향상 |
Harvey는 에이전트가 파일 타입 우회법이나 도구별 패턴 같은 실무 지식을 세션 사이에 보존하게 되면서 완료율이 급등했다. 기존에는 같은 실수가 반복됐고, 그걸 막으려면 사람이 직접 프롬프트에 예외 처리를 써 넣어야 했다.
Wisedocs는 의료 내부 가이드라인에 맞는 루브릭을 Outcomes에 정의했다. Grader가 각 리뷰를 실시간 채점하고, 기준 미달이면 에이전트가 즉시 재시도한다. 사람의 재검토 횟수가 줄면서 속도가 절반으로 단축됐다.
의미와 전망
이번 발표가 흥미로운 이유는 기술 자체보다 프레임이다. Anthropic은 "에이전트를 실제 업무에 쓸 수 있느냐"는 질문에 정면으로 답하기 시작했다. 기억, 성과 측정, 병렬 분업은 엔터프라이즈 현장에서 에이전트 도입을 막아온 세 가지 실질적 장벽이다.
Dreaming의 메모리 통합 개념은 인지과학의 수면 중 기억 공고화(memory consolidation)에서 직접 빌려온 은유다. 단기기억이 장기기억으로 넘어가는 과정이 에이전트의 세션 간 간격에 매핑된다. 필자 시각으로는 이 접근이 Harvey·Wisedocs처럼 반복 패턴이 명확한 특수 워크플로에서 단기적으로 가장 큰 효과를 낼 것이다. 범용 에이전트에서의 안정성은 리서치 프리뷰가 끝난 뒤 실데이터를 봐야 판단할 수 있다.
Outcomes의 루브릭 방식도 방향성이 분명하다. 현재는 기준을 사람이 직접 써야 하지만, 루브릭 생성 자체를 또 다른 에이전트가 맡는 구조로 발전할 여지가 있다. 세 기능이 연결되면 에이전트가 기준을 세우고, 채점하고, 실수를 기억하는 자기 개선 루프가 닫힌다.
참고
- Anthropic: New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration
- VentureBeat: Anthropic introduces "dreaming," a system that lets AI agents learn from their own mistakes
- The New Stack: Anthropic will let its managed agents dream
- SiliconANGLE: Anthropic is letting Claude agents 'dream' so they don't sleep on the job