본문으로 건너뛰기
← 블로그로 돌아가기
AI모델HOT

GPT-5.3 Instant & Codex대화 품질과 코딩 특화의 진화

5분 읽기
#GPT-5.3#OpenAI#Codex#코딩 AI#LLM

핵심 요약

2026년 3월 초, OpenAI가 두 가지 중요한 업데이트를 발표했다. 일상 대화에 최적화된 GPT-5.3 Instant와 코딩 에이전트의 새 기준을 세운 GPT-5.3-Codex다. 전자는 ChatGPT 무료 사용자를 포함한 전체 사용자에게 기본 모델로 적용되었고, 후자는 유료 사용자와 API를 통해 순차 공개되고 있다.

GPT-5.3 Instant: 더 자연스럽고 정확한 대화

GPT-5.3 Instant는 3월 3일부터 GPT-5.2 Instant를 대체하며 ChatGPT의 기본 모델이 되었다. 가장 눈에 띄는 변화는 400K 토큰 컨텍스트 윈도우로, 기존 128K 대비 3배 이상 확장되었다.

주요 개선 사항

  • 환각 26.8% 감소: 웹 검색 결과를 인용할 때 환각률이 크게 줄었다
  • 과도한 거부(overrefusal) 해소: 불필요한 경고, 면책 조항, 선언적 문구가 줄어들어 대화 흐름이 자연스러워졌다
  • 웹 검색 정확도 향상: 검색 결과의 맥락화가 개선되어 더 풍부한 답변을 제공한다
  • 대화 품질: "cringe"하다는 사용자 피드백에 대응하여 어조와 표현을 전면 개선했다

OpenAI는 GPT-5.3 Instant를 통해 "더 정확한 답변, 더 풍부하고 맥락에 맞는 검색 결과, 대화 흐름을 방해하는 불필요한 막다른 길과 경고를 줄이겠다"고 밝혔다.

GPT-5.3-Codex: 코드 작성을 넘어 컴퓨터 조작까지

GPT-5.3-Codex는 2월 5일 공개된 OpenAI의 최신 코딩 특화 모델이다. GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 능력을 하나의 모델에 통합하면서도 25% 빠른 추론 속도를 달성했다.

벤치마크 성적

벤치마크GPT-5.3-CodexGPT-5.2-Codex향상폭
SWE-Bench Pro56.8%56.4%+0.4p
Terminal-Bench 2.077.3%64.0%+13.3p
OSWorld-Verified64.7%38.2%+26.5p
Cybersecurity CTF77.6%67.4%+10.2p
SWE-Lancer IC Diamond81.4%76.0%+5.4p

특히 OSWorld-Verified에서 26.5포인트라는 압도적인 향상을 보이며, 코드 작성을 넘어 컴퓨터를 도구로 활용하는 에이전트 능력이 크게 강화되었음을 보여준다.

핵심 신기능

  • 에이전트 신뢰성: 다중 파일, 다중 단계 작업에서의 실패율 감소
  • Deep Diffs: 코드 리뷰 시 변경 사항에 대한 추론 투명성 강화
  • 인터랙티브 조정: 작업 중간에 방향 전환이 가능하며 컨텍스트 유지
  • 회귀 수정: 린트 루프, 부족한 버그 설명, 불안정한 테스트 조기 완료 문제 해결

멀티 에이전트 워크플로우

GPT-5.3-Codex에서는 스레드를 서브 에이전트로 분기(fork)할 수 있어 현재 대화를 떠나지 않고 작업을 분산할 수 있다. spawn_agents_on_csv로 CSV 기반 대량 작업을 팬아웃할 수 있으며, 진행률과 예상 시간이 내장되어 있다.

GPT-5.3-Codex-Spark: 실시간 코딩의 시작

GPT-5.3-Codex-Spark는 GPT-5.3-Codex의 소형 버전으로, 초저지연 하드웨어에서 초당 1,000토큰 이상의 생성 속도를 목표로 설계되었다. 실시간 코딩 경험에 최적화된 첫 번째 모델로, 리서치 프리뷰 단계에 있다.

GPT-5.2 대비 무엇이 달라졌나

항목GPT-5.2 세대GPT-5.3 세대
기본 모델 컨텍스트128K400K
대화 환각률기준26.8% 감소
Codex 추론 속도기준25% 향상
OSWorld 에이전트 성능38.2%64.7%
멀티 에이전트 워크플로우제한적서브 에이전트 분기 지원
Codex-Spark없음실시간 코딩 모델 추가

전망

GPT-5.3 세대는 "더 잘 대화하는 AI"와 "더 많은 일을 하는 코딩 에이전트"라는 두 축을 동시에 강화했다. 이미 GPT-5.4 출시가 예상보다 빨라질 것이라는 힌트도 나오고 있어, OpenAI의 모델 업데이트 주기가 더욱 빨라지고 있음을 체감할 수 있다.

Codex가 코드 작성에서 컴퓨터 조작으로 영역을 확장한 것은 특히 주목할 만하다. SWE-Bench Pro보다 OSWorld에서의 급격한 성능 향상이 이를 잘 보여준다. 개발자 워크플로우의 자동화 범위가 코딩을 넘어 배포, 모니터링, 문서 작성까지 확장되는 추세다.

관련 포스트