Gemini 3.5 Pro: 200만 토큰 컨텍스트, 6월 GA 마감 7일 전
핵심 요약
Google이 5월 19일 Shoreline Amphitheatre에서 열린 Google I/O 2026 키노트에서 Gemini 3.5 Pro를 공개 예고했다. Sundar Pichai는 무대에서 "Give us until next month to get it to you"라고 발표했고, 그 '다음 달'이 6월이다. 오늘(6월 23일) 기준 Gemini 3.5 Pro는 일부 Vertex AI 엔터프라이즈 고객 대상 제한 프리뷰 상태다. 일반 공개까지 7일이 남았다.
확정된 스펙은 두 가지다. 200만 토큰 컨텍스트 윈도우(현재 출시된 어떤 프론티어 모델보다 크다)와 Deep Think 추론 모드다. 공식 벤치마크는 GA 시점까지 공개되지 않는다. 이 글에서는 확정된 사실과 분석가 추정치, 아직 미확인인 내용을 구분해서 정리한다.
Gemini 3.5 Flash가 먼저 보여준 것
Pro 이야기를 하기 전에 Flash를 짚고 넘어가야 한다. Flash가 먼저 GA됐고, Flash의 성과가 Pro의 가능성을 가늠하는 가장 신뢰할 만한 단서다.
Gemini 3.5 Flash는 Google I/O 당일인 5월 19일 바로 일반 공개됐다. Google AI Studio, Android Studio, Gemini 앱, AI Mode in Search에서 모두 사용 가능하다. 벤치마크 결과는 공식 발표된 수치다.
| 벤치마크 | Gemini 3.5 Flash | Gemini 3.1 Pro |
|---|---|---|
| CharXiv Reasoning | 84.2% | 미공개 |
| MCP Atlas | 83.6 Elo | 1314 Elo |
| Terminal-Bench 2.1 | 76.2% | 65%대 (추정) |
Flash는 이전 세대 Pro를 15개 에이전트 벤치마크 중 11개에서 앞선다. 속도는 다른 프론티어 모델 대비 4배 빠르다고 Google이 밝혔다. 1M 토큰 컨텍스트, 64K 출력 상한선을 갖는다.
이 수치들은 Pro에게 두 가지 시사점을 준다. Flash가 이미 3.1 Pro를 넘어섰다면, Pro는 그보다 한 단계 위여야 의미가 있다. 그리고 코딩·에이전트 벤치마크에서 Flash가 회귀를 보인 하드 추론 영역이 있다. Pro의 Deep Think가 바로 그 영역을 채우는 역할을 할 것이다.
3.5 Pro 확정 스펙
Google이 공식 발표한 내용은 다음과 같다.
200만 토큰 컨텍스트 윈도우. 이것이 가장 중요한 수치다. Flash(1M), Claude Fable 5(1M)와 비교하면 2배다. 현재 출시된 모든 프론티어 모델 중 가장 큰 컨텍스트다. 2백만 토큰은 코드 약 700만 줄, 혹은 8백 페이지 문서 수십 편에 해당한다.
Deep Think 추론 모드. 병렬 사고 기법으로 복수의 가설을 생성하고 비판하는 방식이다. 이전 세대 Gemini 3 Deep Think는 Humanity's Last Exam에서 41.0%, ARC-AGI-2에서 45.1%를 기록했다. 3.5 Pro Deep Think가 이 수치를 어디까지 높이는지는 GA 이후 확인 가능하다.
Deep Think는 $250/월 Gemini Ultra 구독 티어에 포함되는 것으로 여러 분석 리포트가 보고하고 있다. Google의 공식 확인은 GA 발표 시 나올 예정이다.
가격(분석가 추정). 공식 발표 전이므로 이 수치는 분석가 추정치임을 명확히 한다. 복수의 애널리스트 리포트는 Pro가 Flash의 약 10배 수준, 입력 $15/M, 출력 $60/M 안팎을 예상한다. Claude Fable 5의 $10/M 입력, $50/M 출력, GPT-5.6의 가격대와 비슷한 프레미엄 티어 포지셔닝이다.
200만 토큰이 실제로 무엇을 바꾸나
컨텍스트 윈도우는 숫자보다 실제 사용 시나리오로 이해해야 한다.
코드베이스 전체 로딩. 대형 오픈소스 프로젝트(React, Django, Kubernetes 등)의 전체 소스코드를 한 번에 컨텍스트에 넣고 분석할 수 있다. 기존 1M 모델은 파일 단위로 잘라서 처리해야 했다.
멀티 에이전트 장기 세션. 수일간 이어지는 에이전트 세션에서 전체 대화 히스토리와 도구 호출 결과를 유지할 수 있다. MiniMax M3가 1M 컨텍스트로 이미 이 영역을 공략 중인데, 2M은 그 두 배를 처리한다.
긴 형식 문서 분석. 법률 계약서, 의료 기록, 금융 보고서 같은 수백 페이지 문서 묶음을 단일 프롬프트로 처리할 수 있다. RAG 파이프라인 없이 전체 문서를 직접 읽히는 방식이 가능해진다.
실제로 이 컨텍스트가 얼마나 안정적으로 동작하는지는 독립 테스트가 필요하다. 긴 컨텍스트에서 정보 검색 정확도가 얼마나 유지되는지(이른바 'lost in the middle' 문제)는 벤치마크로 직접 확인해야 한다. 공식 벤치마크를 기다려야 한다.
경쟁 구도: 프론티어 모델의 6월 말 레이스
Gemini 3.5 Pro GA 시점이 중요한 이유 중 하나는 타이밍이다. 지금 프론티어 모델 시장은 비슷한 가격대의 모델 세 개가 경쟁하는 구도다.
Claude Fable 5는 6월 9일 정식 출시됐다. $10/M 입력, $50/M 출력. 오늘(6월 23일)부터 구독 플랜에서 빠져 API 유료 과금 체계로만 이용 가능하다. SWE-bench Pro 80.3%라는 강력한 코딩 벤치마크를 보유한다.
GPT-5.6은 이미 출시됐다. 512K 컨텍스트로 Gemini 3.5 Pro의 2M에 비해 작지만, OpenAI의 코딩 도구 생태계(Codex, ChatGPT)와의 통합이 강점이다.
Gemini 3.5 Pro는 컨텍스트 크기에서 차별화하는 전략이다. 모든 모델이 비슷한 추론 능력을 갖춰가는 상황에서 "더 많이 볼 수 있다"는 것이 핵심 경쟁력이 될 수 있다.
다만 한 가지 주의할 점이 있다. Flash를 출시하면서 Google은 Antigravity 개발 플랫폼, Gemini Enterprise Agent Platform 등 여러 엔터프라이즈 도구를 함께 공개했다. Pro의 실제 경쟁력은 모델 단독이 아니라 이 생태계와 연결했을 때 드러날 가능성이 높다.
전망: 일주일 안에 나올까
예측 시장은 "6월 30일 전 GA" 가능성을 50-55%로 평가한다. Google의 공식 입장은 "June 2026" 타깃 외에 구체적 날짜가 없다.
현재 Vertex AI 제한 프리뷰 중이라는 점은 GA가 가깝다는 신호다. 보통 제한 프리뷰에서 GA까지 2-4주가 걸리는데, I/O 발표가 5월 19일이었으니 타이밍 상 맞다.
그러나 이전 Gemini 모델들도 예고 시점보다 지연된 사례가 있다. Gemini 2.5 Pro는 처음 "March 2025"에 예고됐지만 실제 폭넓은 가용성은 한 달 뒤였다.
필자의 시각으로는, 6월 30일 마감보다 중요한 것은 GA 시점의 완성도다. 2M 컨텍스트가 제대로 작동한다면 개발자 커뮤니티의 반응은 빠를 것이다. 반면 '2M을 지원하지만 긴 컨텍스트에서 품질이 떨어진다'는 결과가 나오면 숫자가 주는 기대를 충족하지 못할 수 있다.
개발자라면 지금 준비할 것: Gemini 3.5 Flash API를 미리 통합해두는 것이 빠른 전환에 유리하다. Flash와 Pro는 같은 API 엔드포인트 구조를 공유할 가능성이 높다. Vertex AI 프리뷰 신청도 아직 열려 있다.
참고