HOTAIRESEARCH

Thinking Machines Lab의 Interaction Model: 말하는 동안에도 듣는 AI

2026년 5월 16일9 MIN READBY JJY

#Thinking Machines Lab#Mira Murati#Interaction Model#Full-Duplex AI#음성 AI#TML-Interaction-Small#MoE#실시간 AI

핵심 요약

관련 글: OpenAI Realtime 음성 트리오: GPT-5 추론을 음성에

2026년 5월 11일, 전 OpenAI CTO 미라 무라티(Mira Murati)가 이끄는 Thinking Machines Lab이 AI 음성 대화 시스템의 설계 방식을 다시 쓰는 연구 프리뷰를 공개했다. 이름은 Interaction Model. 첫 번째 모델 TML-Interaction-Small은 276억 파라미터 MoE 구조로, AI 음성 대화에서 오랜 문제였던 발화 전환(turn-taking) 지연을 인간 대화 수준인 0.4초까지 낮췄다.

TechCrunch, VentureBeat, Semafor 등이 보도한 이번 발표의 핵심은 구조다. 기존 음성 AI가 사용자가 말을 끝낼 때까지 기다렸다면, TML의 접근은 그 대기 자체를 없앤다. 전이중(full-duplex) 설계 덕분에 AI는 말하는 동안에도 사용자의 음성과 시각 정보를 계속 처리한다.

FD-bench 기준 비교:

시스템	발화 전환 지연
TML-Interaction-Small	0.40초
Google Gemini-3.1-flash-live	0.57초
GPT-realtime-2.0	1.18초

현재는 연구 프리뷰 단계이며, 2026년 하반기 광범위한 출시가 예정돼 있다.

대화하는 AI의 구조적 문제

음성 AI는 오랫동안 같은 문제를 안고 있었다. 자연스러운 대화처럼 보이지만 내부를 들여다보면 전혀 다르다.

전형적인 음성 AI 파이프라인은 이렇게 작동한다. 사용자가 말을 끝낸다 → AI가 발화 종료를 감지한다 → AI가 처리를 시작한다 → 응답이 나온다. 순차적이고 단방향이다. 사람이 말하는 동안 AI는 대기하고, AI가 말하는 동안 사람의 말은 무시되거나 처리되지 않는다.

이 방식을 **반이중(half-duplex)**이라 한다. 무전기 통신과 같은 구조다. 한 번에 한 쪽만 말할 수 있다.

결과적으로 몇 가지 제약이 생긴다. 말 중간에 끼어들기가 어렵다. "잠깐요"를 말해도 AI가 계속 응답을 완성한다. 시각 정보가 달라져도 AI는 이미 처리 중이라 반응하지 못한다. 자연스러운 대화의 리듬이 깨진다.

이 문제를 해결하는 방법은 크게 두 방향이었다. 직접형(end-to-end) 음성 모델은 속도는 빠르지만 추론 품질이 낮다. 캐스케이드형(cascade)은 음성→텍스트→LLM→텍스트→음성의 파이프라인으로 품질은 좋지만 2초 이상의 지연이 불가피하다.

관련 글: Sakana AI KAME: 실시간 음성 AI에 LLM 지식을 비동기로 주입하다

Sakana AI가 KAME에서 탠덤 구조로 이 간극을 좁히려 했다면, TML의 Interaction Model은 반이중 구조 자체를 포기한다.

Full-Duplex: 기다리지 않는 구조

Interaction Model의 핵심 개념은 전이중(full-duplex) 통신이다. 전화선이나 LTE처럼, 송신과 수신이 동시에 이루어진다.

TML은 이를 위해 시스템을 두 가지 구성 요소로 나눴다.

Interaction Model(인터랙션 모델)은 사용자와 실시간으로 연결된 상태를 유지한다. 발화가 끝나길 기다리지 않고, 200ms 단위의 마이크로-턴(micro-turn)으로 지속적으로 처리한다. 능동적인 반응, 끼어들기, 시각 큐에 대한 즉각적 반응이 가능하다.

Background Reasoning Model(백그라운드 추론 모델)은 비동기적으로 동작한다. 복잡한 추론, 도구 호출, 긴 맥락이 필요한 처리는 이쪽으로 넘어간다. 두 모델은 공유 대화 컨텍스트를 통해 연결되어 있다.

이 구조의 핵심은 인공 발화 경계(artificial turn boundaries)가 없다는 점이다. 기존 음성 AI 시스템은 "사용자가 언제 말을 끝냈는가"를 정의하는 경계가 필수였다. TML에서는 그 경계 자체가 존재하지 않는다. 대화가 흐름으로 처리된다.

TML-Interaction-Small: 내부 구조

첫 번째로 공개된 모델 TML-Interaction-Small은 276억 파라미터 MoE(Mixture-of-Experts) 구조다. 전체 파라미터 중 일부만 각 토큰 처리에 활성화되는 방식으로, 동일 계산 비용 대비 더 많은 파라미터를 활용할 수 있다.

기술적으로 중요한 부분은 인코더 없는 조기 융합(encoder-free early fusion) 방식이다. 멀티모달 시스템 대부분은 오디오와 이미지를 각각의 인코더로 처리한 뒤 합친다. TML은 이 단계를 없앴다.

입력 처리 방식:

오디오: dMel(discrete Mel) 형식의 원시 음향 신호. 별도 오디오 인코더 없이 직접 처리
시각: 40×40 픽셀 이미지 패치. 경량 임베딩 레이어를 통과해 트랜스포머에 입력

두 입력이 처음부터 하나의 트랜스포머 안에서 함께 학습된다. 모달리티를 따로 처리하다 합치는 것이 아니라, 처음부터 멀티모달로 설계된 모델이다.

이 설계가 지연 감소에 유리한 이유는 직관적이다. 인코더를 통과하는 과정이 없으니 그만큼 처리 단계가 줄어든다. 실시간 대화에서 수백 밀리초는 체감 차이로 이어진다.

FD-bench: 0.4초의 의미

TML이 공개한 벤치마크는 **FD-bench(Full-Duplex benchmark)**다. 음성 AI 시스템의 발화 전환 지연을 측정하는 기준으로, 음성 AI 분야에 특화된 지표다.

FD-bench 비교 결과:

시스템	발화 전환 지연	비고
TML-Interaction-Small	0.40초	자연스러운 인간 대화 수준
Google Gemini-3.1-flash-live	0.57초	Google 최속 음성 모델
GPT-realtime-2.0	1.18초	OpenAI Realtime API

0.4초는 수치로만 보면 크지 않아 보인다. 하지만 맥락이 다르다. 사람 간 자연스러운 대화에서 상대방 발화 종료 이후 응답까지의 평균 시간이 대략 0.2~0.4초 사이다. TML의 수치가 이 범위에 들어온다.

GPT-realtime-2.0의 1.18초는 상대적으로 훨씬 길다. 1초가 넘어가면 대화 흐름이 끊기는 체감이 생긴다. Gemini-3.1-flash-live의 0.57초는 TML과 차이가 있지만 두 시스템 모두 캐스케이드형보다는 훨씬 빠르다.

FD-bench 자체가 TML이 제안한 기준이라는 점은 고려해야 한다. 자신에게 유리한 지표를 선택했을 가능성이 있다. 다른 측면의 품질(응답 내용, 맥락 이해, 오류율)에 대한 독립적 평가는 아직 없다.

Mira Murati와 Thinking Machines Lab

미라 무라티는 2024년 10월 OpenAI CTO 자리를 내려놓았다. 2015년 OpenAI 초기 멤버로 합류해 ChatGPT, DALL-E, Codex, GPT-4 개발을 이끈 인물이다.

2025년 2월 Thinking Machines Lab을 창업했고, 같은 해 7월 Andreessen Horowitz 주도의 시드 라운드에서 20억 달러(약 2.8조 원)를 유치했다. 기업가치는 120억 달러로 인정받았다. NVIDIA, AMD, Cisco, Jane Street가 투자에 참여했고, 알바니아 정부(무라티의 출신국)도 1,000만 달러를 투자하기 위해 국가 예산을 수정한 것으로 알려졌다.

2026년 초에는 공동창업자 이탈과 내부 혼란이 보도됐다. 추가 투자 유치 협상도 한동안 지연됐다는 보도가 있었다. 그런 상황에서 5월의 Interaction Model 발표는 TML의 기술 방향성이 실제로 구현되고 있음을 처음으로 보여주는 공개 증거다.

현재 TML은 기업가치 500억 달러에서 50억 달러 추가 투자 유치를 추진 중인 것으로 로이터가 보도했다.

전망

AI 음성 대화의 경쟁이 빨라지고 있다. OpenAI는 Realtime API에 GPT-realtime-2.0을 올렸고, Google은 Gemini-3.1-flash-live를 계속 업데이트하고 있다. TML은 이 두 플레이어를 FD-bench에서 앞섰다고 주장하지만, 연구 프리뷰 단계 결과와 실제 제품화는 다르다.

기술적으로 흥미로운 점은 방향성이다. "더 빠른 처리"가 아니라 "다른 구조"를 선택했다는 것. 인코더 제거, 조기 융합, 인공 발화 경계 제거는 모두 기존 설계를 부수는 접근이다. 이것이 실제 사용자 경험에서 어떻게 나타날지는 제품 출시 이후에야 알 수 있다.

실용적으로 차별화가 가장 클 수 있는 영역은 의료 상담, 교육 튜터링, 고객 응대처럼 사람과의 자연스러운 대화가 핵심인 분야다. 지연이 0.1초 줄어드는 것이 아니라 대화 구조가 바뀐다면, 체감 경험의 차이는 수치 이상일 수 있다.

다만 한 가지. FD-bench는 TML이 제안한 지표고, 더 넓은 품질 평가는 아직 없다. 0.4초 지연이 인상적이라는 사실과, 그게 전부를 말해준다는 것은 다른 이야기다.

참고

// AUTHORJJY

AI · WEB SECURITY · DEV ENV

새 글 알림 받기

스팸 없이 새 포스트만 전달합니다.

// RELATED

Thinking Machines Lab의 Interaction Model: 말하는 동안에도 듣는 AI

핵심 요약

대화하는 AI의 구조적 문제

Full-Duplex: 기다리지 않는 구조

TML-Interaction-Small: 내부 구조

FD-bench: 0.4초의 의미

Mira Murati와 Thinking Machines Lab

전망

관련 포스트

OpenAI Realtime 음성 트리오: GPT-5 추론을 음성에, 70개 언어를 실시간으로

ElevenLabs $500M ARR 돌파: BlackRock·NVIDIA가 선택한 음성 AI

Sakana AI KAME: 실시간 음성 AI에 LLM 지식을 비동기로 주입하다