GPT-5.3 Instant & Codex대화 품질과 코딩 특화의 진화
핵심 요약
2026년 3월 초, OpenAI가 두 가지 중요한 업데이트를 발표했다. 일상 대화에 최적화된 GPT-5.3 Instant와 코딩 에이전트의 새 기준을 세운 GPT-5.3-Codex다. 전자는 ChatGPT 무료 사용자를 포함한 전체 사용자에게 기본 모델로 적용되었고, 후자는 유료 사용자와 API를 통해 순차 공개되고 있다.
GPT-5.3 Instant: 더 자연스럽고 정확한 대화
GPT-5.3 Instant는 3월 3일부터 GPT-5.2 Instant를 대체하며 ChatGPT의 기본 모델이 되었다. 가장 눈에 띄는 변화는 400K 토큰 컨텍스트 윈도우로, 기존 128K 대비 3배 이상 확장되었다.
주요 개선 사항
- 환각 26.8% 감소: 웹 검색 결과를 인용할 때 환각률이 크게 줄었다
- 과도한 거부(overrefusal) 해소: 불필요한 경고, 면책 조항, 선언적 문구가 줄어들어 대화 흐름이 자연스러워졌다
- 웹 검색 정확도 향상: 검색 결과의 맥락화가 개선되어 더 풍부한 답변을 제공한다
- 대화 품질: "cringe"하다는 사용자 피드백에 대응하여 어조와 표현을 전면 개선했다
OpenAI는 GPT-5.3 Instant를 통해 "더 정확한 답변, 더 풍부하고 맥락에 맞는 검색 결과, 대화 흐름을 방해하는 불필요한 막다른 길과 경고를 줄이겠다"고 밝혔다.
GPT-5.3-Codex: 코드 작성을 넘어 컴퓨터 조작까지
GPT-5.3-Codex는 2월 5일 공개된 OpenAI의 최신 코딩 특화 모델이다. GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 능력을 하나의 모델에 통합하면서도 25% 빠른 추론 속도를 달성했다.
벤치마크 성적
| 벤치마크 | GPT-5.3-Codex | GPT-5.2-Codex | 향상폭 |
|---|---|---|---|
| SWE-Bench Pro | 56.8% | 56.4% | +0.4p |
| Terminal-Bench 2.0 | 77.3% | 64.0% | +13.3p |
| OSWorld-Verified | 64.7% | 38.2% | +26.5p |
| Cybersecurity CTF | 77.6% | 67.4% | +10.2p |
| SWE-Lancer IC Diamond | 81.4% | 76.0% | +5.4p |
특히 OSWorld-Verified에서 26.5포인트라는 압도적인 향상을 보이며, 코드 작성을 넘어 컴퓨터를 도구로 활용하는 에이전트 능력이 크게 강화되었음을 보여준다.
핵심 신기능
- 에이전트 신뢰성: 다중 파일, 다중 단계 작업에서의 실패율 감소
- Deep Diffs: 코드 리뷰 시 변경 사항에 대한 추론 투명성 강화
- 인터랙티브 조정: 작업 중간에 방향 전환이 가능하며 컨텍스트 유지
- 회귀 수정: 린트 루프, 부족한 버그 설명, 불안정한 테스트 조기 완료 문제 해결
멀티 에이전트 워크플로우
GPT-5.3-Codex에서는 스레드를 서브 에이전트로 분기(fork)할 수 있어 현재 대화를 떠나지 않고 작업을 분산할 수 있다. spawn_agents_on_csv로 CSV 기반 대량 작업을 팬아웃할 수 있으며, 진행률과 예상 시간이 내장되어 있다.
GPT-5.3-Codex-Spark: 실시간 코딩의 시작
GPT-5.3-Codex-Spark는 GPT-5.3-Codex의 소형 버전으로, 초저지연 하드웨어에서 초당 1,000토큰 이상의 생성 속도를 목표로 설계되었다. 실시간 코딩 경험에 최적화된 첫 번째 모델로, 리서치 프리뷰 단계에 있다.
GPT-5.2 대비 무엇이 달라졌나
| 항목 | GPT-5.2 세대 | GPT-5.3 세대 |
|---|---|---|
| 기본 모델 컨텍스트 | 128K | 400K |
| 대화 환각률 | 기준 | 26.8% 감소 |
| Codex 추론 속도 | 기준 | 25% 향상 |
| OSWorld 에이전트 성능 | 38.2% | 64.7% |
| 멀티 에이전트 워크플로우 | 제한적 | 서브 에이전트 분기 지원 |
| Codex-Spark | 없음 | 실시간 코딩 모델 추가 |
전망
GPT-5.3 세대는 "더 잘 대화하는 AI"와 "더 많은 일을 하는 코딩 에이전트"라는 두 축을 동시에 강화했다. 이미 GPT-5.4 출시가 예상보다 빨라질 것이라는 힌트도 나오고 있어, OpenAI의 모델 업데이트 주기가 더욱 빨라지고 있음을 체감할 수 있다.
Codex가 코드 작성에서 컴퓨터 조작으로 영역을 확장한 것은 특히 주목할 만하다. SWE-Bench Pro보다 OSWorld에서의 급격한 성능 향상이 이를 잘 보여준다. 개발자 워크플로우의 자동화 범위가 코딩을 넘어 배포, 모니터링, 문서 작성까지 확장되는 추세다.