OpenAI GPT-5.5-Cyber 정식 출시: 사이버보안 AI 벤치마크 3개 동시 1위
핵심 요약
OpenAI가 2026년 6월 22일 GPT-5.5-Cyber를 정식 출시했습니다. 3월에 리서치 프리뷰로 공개된 지 약 3개월 만입니다. 이 모델은 사이버보안 방어 전용으로 파인튜닝된 GPT-5.5 파생 모델로, CyberGym 85.6%, ExploitGym 39.5%, SEC-bench Pro 69.8%를 기록하며 세 벤치마크 모두에서 현재까지 가장 높은 단일 모델 점수를 달성했습니다. 단순히 취약점을 찾는 데 그치지 않고, 샌드박스에서 재현하고 실제로 컴파일 가능한 패치를 생성·테스트하는 전 주기 자동화가 핵심입니다.
관련 글: OpenAI Daybreak: GPT-5.5와 Codex Security로 시작된 AI 사이버 방어 전쟁
이번 출시는 단독 모델 발표가 아닙니다. Daybreak 이니셔티브 확장, Trusted Access for Cyber(TAC) 거버넌스 프레임워크, Codex Security 플러그인 업데이트가 동시에 공개됐습니다. 모두 일반 공개(Public API)가 아닌 검증된 방어자(verified defenders)에게만 제공됩니다.
GPT-5.5-Cyber: 리서치 프리뷰에서 정식 출시로
2026년 3월, OpenAI는 GPT-5.5를 기반으로 한 사이버보안 전용 모델을 21개 보안 파트너와 함께 리서치 프리뷰로 공개했습니다. 당시 목표는 명확했습니다. 취약점을 찾고, 재현 가능성을 검증하고, 실제 작동하는 패치를 작성하는 흐름을 하나의 모델로 처음부터 끝까지 자동화하는 것입니다.
정식 버전은 리서치 프리뷰의 그 설계를 그대로 유지하면서 코드베이스 처리 깊이와 패치 품질을 높였습니다. OpenAI는 이번 릴리스를 "지금까지 취약점 발견·패치에서 가장 강력한 단일 모델"로 설명했습니다.
이 모델이 실제로 어떻게 동작하는지를 이해하려면 기존 SAST(정적 분석)나 DAST(동적 분석) 도구와 비교해야 합니다. 기존 도구들은 패턴 매칭이나 사전 정의된 규칙에 의존합니다. GPT-5.5-Cyber는 낯선 대형 코드베이스를 맥락적으로 읽고, 취약점이 실제로 트리거될 수 있는지를 추론하며, 샌드박스에서 확인한 뒤 패치를 작성합니다.
세 벤치마크, 세 수치
공개된 벤치마크 점수는 세 개입니다.
| 벤치마크 | GPT-5.5 | GPT-5.5-Cyber | 비고 |
|---|---|---|---|
| CyberGym | 81.8% | 85.6% | Anthropic Mythos 5: 83.8% |
| ExploitGym | 25.95% | 39.5% | 실제 익스플로잇 자동화 |
| SEC-bench Pro | 63.1% | 69.8% | SW 엔지니어링 보안 |
CyberGym은 취약점 발견과 분류를 종합 평가하는 벤치마크입니다. 여기서 주목할 부분은 Anthropic Mythos 5(83.8%)와의 격차입니다. 1.8%p 차이지만 Mythos 5는 현재 제한된 고객에게만 제공되는 반면, GPT-5.5-Cyber는 TAC 검증을 통과한 방어자에게 더 넓게 배포됩니다.
ExploitGym은 단순한 취약점 식별을 넘어 실제 익스플로잇 가능성을 검증하는 벤치마크입니다. GPT-5.5가 25.95%였던 것을 GPT-5.5-Cyber는 39.5%로 끌어올렸습니다. 13.55%p 향상으로 세 벤치마크 중 가장 큰 상대적 성장입니다. 이 차이는 보안 전용 파인튜닝이 어디에서 가장 크게 작동하는지를 보여줍니다.
SEC-bench Pro는 소프트웨어 엔지니어링 관점에서 보안 코딩 능력을 측정합니다. 63.1%에서 69.8%로 6.7%p 향상됐습니다.
Daybreak 생태계: 모델 혼자가 아니다
이번 출시에서 모델 단독 성능보다 중요한 것이 있습니다. OpenAI가 GPT-5.5-Cyber를 단일 API 엔드포인트로만 배포하지 않았다는 점입니다.
Codex Security 플러그인은 3월 리서치 프리뷰 시점부터 이미 별도로 배포 중이었습니다. 6월 22일 기준으로 Codex Security는 30,000개 이상의 코드베이스에서 3,000만 개 이상의 커밋을 스캔했습니다. 정식 출시와 함께 딥 코드베이스 스캐닝과 자동 패치 생성 기능이 업데이트됐습니다.
Daybreak 프로그램은 GPT-5.5-Cyber를 실제 방어 파트너십으로 연결하는 상위 이니셔티브입니다. 단순히 API 키를 제공하는 것이 아니라, 인증된 보안 기관과 기업이 지속적인 취약점 스캔을 운영할 수 있는 구조입니다.
TAC(Trusted Access for Cyber) 는 이 전체 스택의 거버넌스 레이어입니다. GPT-5.5-Cyber는 일반 API를 통해 요청하면 거절됩니다. TAC는 접근 자격을 심사하고, 모델이 방어 목적에만 사용되는지를 감독하는 역할을 합니다.
TAC: 누가 쓸 수 있나
OpenAI는 GPT-5.5-Cyber를 "검증된 방어자가 승인된 사이버보안 작업에 사용하도록 제한된 지속적인 제한 릴리스"로 표현합니다. 이는 의도적인 설계입니다.
사이버보안 AI 모델이 공개 API로 풀리면 생기는 문제는 자명합니다. 공격자도 동일한 도구를 사용할 수 있습니다. TAC는 이 딜레마에 대한 OpenAI의 답입니다. 완전히 잠그면 방어자도 못 쓰고, 완전히 열면 공격자가 더 유리해집니다. 검증 게이트를 두는 방식으로 중간 지점을 잡았습니다.
접근 가능한 조직의 구체적인 기준은 공개되지 않았습니다. 리서치 프리뷰 당시의 21개 보안 파트너(정부 기관, 주요 인프라 기업, 보안 전문 기업 포함) 구조를 기반으로 TAC 검증 절차가 설계된 것으로 보입니다.
전망
GPT-5.5-Cyber의 정식 출시는 AI 사이버보안 경쟁의 다음 라운드를 알리는 신호입니다. Anthropic의 Mythos 5는 현재 Project Glasswing 내 제한 고객에게만 공개되어 있습니다. OpenAI는 TAC를 통한 더 넓은 검증 방어자 배포로 실질적인 채택 규모에서 우위를 가져가려는 전략을 취하고 있습니다.
Codex Security의 3,000만 커밋 스캔 수치는 이미 실사용 데이터가 쌓이고 있다는 뜻입니다. 리서치 벤치마크가 아닌 실제 코드베이스에서의 성능 데이터가 다음 라운드 경쟁의 기준이 될 가능성이 높습니다.
다만 이 모든 것이 방어 목적으로만 사용될 것이라는 보장은 없습니다. TAC 검증 프로세스의 엄격함과 모델의 실제 오용 가능성이 장기적으로 이 플랫폼의 가장 중요한 변수가 될 것입니다. 개인적으로는 검증 게이트가 확대와 보안 사이의 현실적인 균형점이라고 봅니다. 완벽하지 않지만 완전히 닫는 것보다 낫고, 완전히 여는 것보다 책임 있는 접근입니다.
참고