ProAttack: 6개 샘플로 LLM을 장악하는 탐지 불가 백도어

무슨 일이 일어났나

2026년 3월, 싱가포르 난양공과대학교(NTU)의 Zhao Shuai 연구팀이 ProAttack이라는 새로운 LLM 백도어 공격 기법을 공개했습니다. 이 기법은 학습 데이터에 단 6개의 오염된 샘플만 주입하면 대규모 언어 모델에 백도어를 심을 수 있습니다. 공격 성공률은 거의 100%에 달하며, 현재 알려진 4가지 주요 방어 기법을 모두 우회합니다.

기존 백도어 공격은 학습 데이터의 라벨을 바꾸거나 부자연스러운 텍스트를 삽입하는 방식이었습니다. ProAttack은 라벨을 그대로 두고, 텍스트도 자연스럽게 유지합니다. 대신 특정 프롬프트(지시문)를 학습 샘플에 결합하는 방법을 사용합니다. 사람이 봐도, 자동 탐지 도구가 분석해도, 정상 데이터와 구별이 거의 불가능합니다.

연구팀은 5개 데이터셋과 5개 LLM에서 실험을 진행했습니다. 모든 조합에서 공격 성공률이 100%에 가까웠고, 모델의 정상 작업 정확도는 기존 수준 그대로 유지되었습니다. 의료 분야 테스트에서도 방사선 보고서 요약 작업의 공격 성공률이 높게 나타났습니다.

왜 위험한가

ProAttack의 작동 원리

ProAttack은 프롬프트 기반(prompt-based) 백도어 공격입니다. 기존 공격과 달리 데이터 자체를 수정하지 않고, 데이터에 붙이는 프롬프트를 조작합니다.

공격자는 학습 데이터의 특정 클래스에서 소수의 샘플을 선택합니다. 이 샘플들에는 악성 프롬프트를 적용하고, 나머지 정상 샘플에는 양성 프롬프트를 적용합니다. 같은 코퍼스에 두 가지 프롬프트 함수를 사용하는 것이 핵심입니다.

모델은 학습 과정에서 악성 프롬프트와 특정 출력 사이의 연관성을 학습합니다. 배포 후 공격자가 해당 트리거 프롬프트를 입력하면, 모델은 공격자가 의도한 대로 반응합니다.

항목	기존 백도어	ProAttack
라벨 조작	필요함	불필요: 라벨 정상 유지
텍스트 변조	부자연스러운 트리거 삽입	자연스러운 프롬프트 사용
필요 샘플 수	수백~수천	6개로도 가능
정상 정확도	일부 저하	기존 수준 유지
탐지 가능성	이상 패턴 감지 가능	기존 방어 4종 모두 실패

기존 방어가 무력한 이유

연구팀은 현재 널리 사용되는 4가지 백도어 방어 기법을 테스트했습니다. ONION(토큰 퍼플렉시티 분석), SCPD(스펙트럼 서명 탐지), 역번역(paraphrase 필터), 파인프루닝(뉴런 가지치기). 모두 ProAttack을 탐지하지 못했습니다.

ONION은 비정상적인 토큰을 찾는데, ProAttack은 자연스러운 텍스트만 사용합니다. SCPD는 클러스터링 이상을 감지하는데, 오염 샘플이 정상 분포에 섞여 있어 구별이 안 됩니다. 역번역은 트리거를 제거하려 하지만, 프롬프트 형태의 트리거는 번역 과정에서 살아남습니다. 파인프루닝은 특정 뉴런을 제거하려 하지만, 공격이 모델 전체에 분산되어 있어 효과가 없습니다.

나에게 어떤 영향이 있는가

ProAttack은 현재 연구 단계이지만, LLM 공급망 보안에 근본적인 질문을 던집니다.

AI 서비스 이용자: 파인튜닝된 LLM 기반 서비스가 백도어에 감염될 경우, 특정 입력에 대해 조작된 결과를 받을 수 있습니다. 의료 보고서 요약, 법률 문서 분석 등 고위험 작업에서 특히 위험합니다.
AI 개발자: 오픈소스 데이터셋으로 모델을 파인튜닝할 때, 데이터셋에 ProAttack 방식의 오염이 포함되어 있어도 기존 도구로는 발견할 수 없습니다.
기업 AI 도입팀: 외부에서 파인튜닝된 모델을 도입할 때, 해당 모델의 학습 데이터 무결성을 기존 방어 도구만으로 검증하기 어렵습니다.

지금 할 수 있는 대응법

LoRA 기반 파인튜닝 적용: 연구팀이 제안한 방어 기법입니다. LoRA(Low-Rank Adaptation)로 파라미터 업데이트 범위를 제한하면 백도어 효과를 약화시킬 수 있습니다. 완벽하지는 않지만 현재까지 가장 효과적입니다.
학습 데이터 출처 검증 강화: 파인튜닝에 사용할 데이터셋의 출처를 철저히 확인하세요. 출처가 불명확한 데이터셋은 사용을 피합니다.
다중 모델 교차 검증: 중요한 작업에서는 서로 다른 모델의 출력을 비교하세요. 같은 입력에 대해 하나의 모델만 다른 결과를 내놓는다면 백도어 감염을 의심할 수 있습니다.
프롬프트 입력 모니터링: 프로덕션 환경에서 비정상적인 프롬프트 패턴을 모니터링하는 시스템을 구축하세요. 특정 프롬프트에서만 결과가 급변하면 조사가 필요합니다.
보안 업데이트 추적: ProAttack 대응 방어 기법은 활발히 연구 중입니다. OWASP LLM Top 10, NIST AI RMF 등 보안 프레임워크의 업데이트를 지속적으로 확인합니다.

항목	내용
위협 유형	LLM 프롬프트 기반 백도어 공격
심각도	Warning
공격 성공률	~100% (5개 데이터셋, 5개 LLM)
필요 오염 샘플	최소 6개
우회 방어 기법	ONION, SCPD, 역번역, 파인프루닝 (4종 전부)
유일한 부분 방어	LoRA 기반 파인튜닝

ProAttack은 "보이지 않는 독"과 같습니다. 데이터도, 라벨도 정상이기 때문에 기존 검사로는 발견할 수 없습니다. AI 모델의 학습 파이프라인 보안이 코드 보안만큼 중요해지는 시대가 오고 있습니다.

참고