OpenAI Realtime 음성 트리오: GPT-5 추론을 음성에, 70개 언어를 실시간으로
핵심 요약
OpenAI가 5월 7일 Realtime API에 음성 모델 세 개를 한 번에 올렸습니다. GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. 첫 번째는 GPT-5급 추론을 실시간 대화에 끌어왔고, 두 번째는 70개 이상 입력 언어를 13개 출력 언어로 옮깁니다. 세 번째는 분당 $0.017짜리 스트리밍 받아쓰기입니다.
이번 발표의 의미는 단순합니다. 음성 에이전트가 텍스트 모델만큼 똑똑해지는 분기점에 도달했고, 가격은 그 어느 때보다 낮아졌습니다.
한 번에 세 모델, 각자의 역할
OpenAI는 단일 만능 모델 대신 작업별 모델을 분리하는 전략을 택했습니다. 추론, 번역, 받아쓰기는 각자 다른 지연 예산과 컨텍스트 요구를 가집니다.
| 모델 | 역할 | 컨텍스트 | 가격 |
|---|---|---|---|
| GPT-Realtime-2 | 음성 대화 + 추론 | 128K (이전 32K) | $32 / $64 per 1M audio token (입력/출력) |
| GPT-Realtime-Translate | 실시간 음성 번역 | 70+ → 13 언어 | $0.034 / 분 |
| GPT-Realtime-Whisper | 스트리밍 STT | 단방향 | $0.017 / 분 |
캐시된 입력 토큰은 GPT-Realtime-2 기준 $0.40 / 1M입니다. 동일 세션에서 시스템 프롬프트나 도구 정의를 재사용하면 단가가 80배 가까이 떨어집니다.
세 모델 모두 Realtime API로만 접근 가능합니다. ChatGPT 앱의 음성 모드 업데이트는 따로 예고됐고, 아직 일정은 공개되지 않았습니다.
GPT-Realtime-2: 음성에 들어온 GPT-5급 추론
이전 세대 음성 모델은 빠르지만 둔했습니다. 사용자가 중간에 끊거나 화제를 바꾸면 자주 무너졌고, 도구 호출 중간에 추론을 끼워 넣지 못했습니다.
GPT-Realtime-2는 이 한계를 정면으로 풀었습니다. OpenAI는 이번 모델을 "GPT-5급 추론을 가진 첫 음성 모델"로 소개했습니다. 모델은 어려운 요청을 받으면 응답하면서 추론하고, 중간에 끊겨도 대화 흐름을 잃지 않으며, 도구 호출과 정정을 자연스럽게 끼워 넣습니다.
벤치마크는 한 세대를 건너뛴 점수가 나왔습니다.
| 벤치마크 | GPT-Realtime-2 | GPT-Realtime-1.5 | 변화 |
|---|---|---|---|
| Big Bench Audio (xhigh 추론) | 96.6% | 81.4% | +15.2pt |
| Audio MultiChallenge (xhigh) | 48.5% | 34.7% | +13.8pt |
| Conversational Dynamics (Artificial Analysis) | 96.1% | 비공개 | 신규 1위 |
| Scale AI Audio MultiChallenge S2S APR | 70.8% | 36.7% | +34.1pt |
xhigh는 OpenAI가 평가용으로 켠 추론 노력 수준입니다. 실서비스 기본값은 지연을 줄이기 위해 low로 설정되며, 점수도 그만큼 낮아집니다. 점수표는 모델의 천장을 보여줄 뿐, 운영 환경의 평균 점수가 아닙니다.
컨텍스트 확장도 큽니다. 32K에서 128K로 네 배 늘었습니다. 한 시간 단위 회의나 긴 고객 응대 세션을 한 번에 들고 가도 잘려 나가지 않습니다.
GPT-Realtime-Translate: 70개 언어를 분당 3.4센트에
번역 모델은 별도로 설계됐습니다. 대화형 에이전트가 아니라 한쪽 음성 스트림을 받아 다른 언어 음성 스트림으로 흘려보내는 단방향 파이프입니다.
입력 언어는 70개 이상, 출력 언어는 13개입니다. 입력 폭이 출력보다 훨씬 넓다는 사실이 이 모델의 시장 포지션을 보여줍니다. 다국어 대중을 영어, 스페인어, 포르투갈어, 프랑스어, 독일어, 일본어, 한국어 같은 주요 언어 채널로 모으는 데 최적화돼 있습니다.
가격은 분당 $0.034입니다. 60분짜리 화상 회의를 양방향으로 통역하면 $4 정도가 나옵니다. 사람 통역사 시간당 단가와 비교하면 두 자릿수 단위로 차이가 벌어집니다.
스타트업 BolnaAI는 발표 직후 자체 측정에서 힌디어, 타밀어, 텔루구어 단어 오류율(WER)이 12.5% 더 낮게 나왔다고 공유했습니다. 사내 평가이므로 단정적 비교는 어렵지만, 비주류 언어에서도 일정 수준의 정확도가 나온다는 신호로 읽힙니다.
GPT-Realtime-Whisper: 분당 1.7센트의 스트리밍 STT
세 번째 모델은 가장 단순합니다. 마이크에서 들어오는 오디오를 텍스트로 흘려보내는 스트리밍 받아쓰기입니다.
핵심 설정은 delay입니다. 모델에 더 많은 오디오 컨텍스트를 줄수록 단어 오류율이 떨어집니다. 자막 출력이 화면에 늦게 뜨는 대신 정확해진다는 뜻입니다. 라이브 방송 자막처럼 즉시성이 우선인 케이스는 짧은 delay, 회의록처럼 정확도가 우선인 케이스는 긴 delay를 택할 수 있습니다.
가격은 분당 $0.017로 트리오 중 가장 저렴합니다. 60분 회의 한 건이 $1 수준이며, 기존 비스트리밍 Whisper API와 사실상 같은 단가에 스트리밍이 추가됐습니다.
OpenAI는 정식 WER 수치를 공개하지 않았습니다. 자체 평가 결과는 발표 페이지에 일부 그래프로만 제공됐고, 외부 벤치마크가 아직 채워지는 단계입니다.
가격 구조가 드러내는 노림수
세 모델의 가격을 한 줄에 놓으면 OpenAI의 의도가 명확해집니다.
- 추론이 필요한 대화: $32 / $64 per 1M audio token
- 단순 번역 파이프: $0.034 / 분
- 단순 받아쓰기: $0.017 / 분
작업의 추론 강도와 단가가 정비례합니다. 개발자가 "사용자가 무엇을 묻는지 이해하고 응답해야 하는가"를 기준으로 모델을 고르면 비용이 자동으로 최적화되도록 설계됐습니다.
캐시된 입력 단가가 $0.40로 떨어지는 점도 중요합니다. 콜센터처럼 동일 시스템 프롬프트와 동일 도구 정의를 가진 세션이 수만 건 깔리는 환경에서는 실질 단가가 입력 기준 $0.40 근처에 수렴할 수 있습니다.
분석: 음성 에이전트 시장의 분기점
ElevenLabs가 4개월 만에 ARR을 43% 늘려 $500M을 돌파한 이유와 이번 발표는 같은 흐름의 다른 면입니다. 음성이 텍스트만큼 신뢰할 만한 인터페이스가 됐다는 신호가 시장에서 동시다발로 나오고 있습니다.
다만 OpenAI와 ElevenLabs는 직접 경쟁이 아닙니다. ElevenLabs는 합성 음성 품질과 다국어 보이스 클로닝에 강점이 있고, OpenAI는 추론과 도구 호출이 결합된 양방향 대화 에이전트에 집중합니다. 실제 빌더 입장에서는 합성은 ElevenLabs, 추론은 OpenAI를 조합하는 구도가 자연스럽습니다.
Google Gemini Live, Anthropic의 음성 인터페이스는 아직 직접 비교 가능한 가격이나 벤치마크를 공개하지 않았습니다. 비교 표가 채워질 때까지는 OpenAI Realtime이 추론형 음성 에이전트 카테고리의 사실상 표준 위치를 잡을 가능성이 큽니다.
전망
음성 에이전트의 빌드 비용이 한 단계 떨어졌다는 점이 가장 중요한 변화입니다. 이전 세대처럼 스트리밍 STT, LLM, TTS 세 컴포넌트를 직접 묶지 않아도 됩니다. Realtime API 한 곳에서 추론, 번역, 받아쓰기를 모두 처리할 수 있고, 가격은 작업 강도에 비례합니다.
개인적으로 주목하는 지표는 두 개입니다. 캐시된 입력 단가의 실질 적용률, 그리고 ChatGPT 앱 음성 모드 업데이트 시점입니다. 전자가 콜센터, 헬프데스크, 영업 통화 자동화의 비용 모델을 흔들고, 후자가 일반 사용자에게 음성 에이전트의 새로운 기준점을 학습시킵니다.
향후 6개월 안에 Anthropic과 Google이 같은 가격대에서 동급 추론을 제공할지가 다음 관전 포인트입니다.
참고