무슨 일이 일어났나
2026년 4월 6일, Bloomberg는 OpenAI, Anthropic, Google 3사가 중국 AI 기업의 적대적 증류(adversarial distillation) 공격에 공동 대응하기 시작했다고 보도했다. 세 기업은 2023년 Microsoft와 함께 설립한 비영리 협의체 Frontier Model Forum을 통해 공격 탐지 데이터를 공유하고 있다.
주목할 점은 이것이 Frontier Model Forum의 첫 실전 가동이라는 사실이다. 설립 이후 연구와 정책 논의에 집중해온 포럼이, 이번에 처음으로 특정 외부 위협에 대한 운영 수준의 정보 공유 체계로 전환했다. 3사는 API 사용 패턴 중 증류 수확(distillation harvesting)으로 의심되는 행위, 체계적 출력 추출과 일치하는 계정 행동, 개별 기업이 놓칠 수 있는 탐지 시그니처를 통합 분석하고 있다.
Bloomberg에 따르면, 미국 정부 관계자들은 이러한 무단 증류 시도가 실리콘밸리 AI 기업에 연간 수십억 달러의 손실을 초래하고 있다고 추산한다.
증류 공격이란 무엇인가
**증류(distillation)**는 본래 합법적인 AI 기술이다. 대형 "교사 모델"의 지식을 소형 "학생 모델"에 전달하여 효율적인 모델을 만드는 방법으로, 허가된 환경에서 널리 사용된다.
비유하면 이렇다. 시험에서 우등생(교사 모델)이 푸는 과정과 답안을 옆에서 몰래 베끼는 학생(학생 모델)을 떠올리면 된다. 정상적인 증류는 선생님의 허락 아래 답안 풀이를 공유받는 것이고, 적대적 증류는 허락 없이 수만 번의 시험지를 훔쳐보는 것이다.
적대적 증류가 위험한 이유는 명확하다.
- 시간과 비용의 단축: ChatGPT, Claude, Gemini 같은 프론티어 모델은 수년의 연구와 수십억 달러의 투자로 만들어진다. 적대적 증류는 이 과정을 우회하여 핵심 능력을 복제한다.
- 안전 장치의 소실: Anthropic에 따르면, 증류로 복제된 모델은 원본의 안전 필터(alignment)가 제거된 상태로 배포될 수 있다. 이런 모델이 감시나 허위 정보 생성에 대규모로 활용될 위험이 있다.
- 낮은 비용: 1,600만 건의 쿼리를 건당 약 $0.01로 추산하면 약 16만 달러 — 프론티어 모델의 학습 비용 대비 극히 적은 금액이다.
피해 규모와 공격 주체
2026년 2월 23일, Anthropic은 자사 모델 Claude에 대한 산업적 규모의 증류 공격을 공개적으로 적발했다. 공격 주체로 지목된 3개 기업은 DeepSeek, Moonshot AI(Kimi 모델 개발사), MiniMax이다.
| 공격 주체 | 추출 대화 수 | 주요 타겟 영역 | 특이 사항 |
|---|---|---|---|
| MiniMax | 1,300만+ | 에이전틱 코딩, 도구 사용/오케스트레이션 | 신규 모델 출시 24시간 내 트래픽 50% 전환 |
| Moonshot AI | 340만+ | 에이전틱 추론, 도구 사용, 코딩, 컴퓨터 비전 | 수백 개 위장 계정, 다중 접근 경로 활용 |
| DeepSeek | 15만+ | 추론 능력, 채점 루브릭, 검열 우회 대안 생성 | 정치적 민감 쿼리의 검열 안전 대안 추출 |
| 합계 | 1,600만+ | — | 24,000+ 위장 계정 사용 |
공격자들은 상업용 프록시 서비스를 통해 Anthropic의 지역 접근 제한을 우회했다. 특히 하나의 프록시 네트워크는 2만 개 이상의 위장 계정을 동시에 운영하는 "하이드라 클러스터" 구조를 사용했으며, 일반 고객 요청과 증류 트래픽을 섞어 탐지를 회피했다.
이처럼 개별 기업의 탐지만으로는 전체 공격의 규모와 패턴을 파악하기 어렵다는 점이 Frontier Model Forum을 통한 연합 대응의 핵심 배경이다. OpenAI는 미 하원 중국특별위원회에 공식 메모를 제출한 바 있으며, 이번 공동 대응은 기술적 방어와 정책적 대응을 동시에 추진하는 성격을 띤다.
지금 할 수 있는 대응법
- API 제공 업체: 사용 패턴에 대한 이상 탐지(anomaly detection)를 강화한다. 동일 IP 대역에서의 대량 반복 쿼리, 계정 간 동기화된 트래픽 패턴, 공유 결제 수단 등을 모니터링한다. Rate limiting을 세밀하게 적용하고, 행동 기반 핑거프린팅(behavioral fingerprinting)을 도입한다.
- AI 모델 개발자: 모델 출력에 워터마킹(watermarking) 기법을 적용하여 증류 여부를 사후 추적할 수 있게 한다. 출력 다양화(output diversification) 기법을 활용하여 동일 프롬프트에 대해 미세하게 다른 응답을 생성함으로써 체계적 증류의 효과를 감소시킨다.
- 기업 사용자: 조직 내 API 키 관리를 점검한다. 키 공유 범위를 최소화하고, 키별 사용량 알림을 설정한다. 비정상적 사용 패턴이 발견되면 즉시 API 제공 업체에 보고한다.
- 교육/연구 기관: 교육용·연구용 API 접근 계정의 본인 인증을 강화한다. Anthropic은 이번 사건 이후 교육/연구 계정에 대한 검증 절차를 강화했다.
참고 링크