Google Gemini 3.1 Pro추론 2배, 3단계 사고 시스템의 등장
2026년 2월 19일, Google DeepMind가 Gemini 3.1 Pro를 출시했습니다. ".1" 증분을 처음 사용한 버전인데, 바뀐 건 숫자만이 아닙니다.
추론 성능이 2배가 됐다
가장 눈에 띄는 변화는 추론 능력입니다.
ARC-AGI-2 벤치마크에서 **77.1%**를 달성했습니다. 기존 Gemini 3 Pro 대비 2배 이상의 점수입니다. ARC-AGI-2는 패턴 인식과 추상적 사고를 측정하는 테스트로, 단순 지식 암기가 아닌 진짜 "생각하는 능력"을 평가합니다.
코딩, 멀티모달 이해, 과학 벤치마크에서도 전반적으로 강한 결과를 보여줬습니다.
3단계 Deep Think 시스템
Gemini 3.1 Pro의 핵심 혁신은 조절 가능한 3단계 사고 시스템입니다.
Google은 이걸 "Deep Think Mini"라고 부릅니다. 기존에는 모델이 고정된 연산량으로 답을 생성했지만, 이제는 개발자가 사고 깊이를 조절할 수 있습니다.
- Low — 빠른 응답. 단순 질문에 적합.
- Medium — 응답 속도와 추론 깊이의 균형. 대부분의 작업에 적합.
- High — 최대 연산. 복잡한 수학, 코딩, 분석에 사용.
이 방식의 장점은 명확합니다. 간단한 질문에 불필요한 연산을 낭비하지 않으면서도, 어려운 문제에는 충분한 사고 시간을 할당할 수 있습니다. API 호출 비용 최적화에도 직결됩니다.
스펙으로 보는 변화
구체적 수치를 정리하면 이렇습니다.
- 컨텍스트 윈도우: 1,048,576 토큰 (약 100만)
- 최대 출력: 65,536 토큰
- 이미지 처리: 프롬프트당 최대 900장
- 오디오: 최대 8.4시간 연속 데이터 처리
- 비디오: 최대 1시간 영상 분석 (음성 제외)
100만 토큰 컨텍스트와 65K 출력은 긴 문서 분석이나 대규모 코드베이스 리뷰에 실질적으로 유용한 스펙입니다. 이미지 900장 처리는 디자인 리뷰나 데이터 라벨링 같은 작업에서 활용도가 높을 겁니다.
어디서 쓸 수 있나
현재 Gemini API, Vertex AI, Gemini 앱, NotebookLM에서 사용 가능합니다. Google AI Pro와 Ultra 구독자에게는 더 높은 사용 한도가 제공됩니다.
개발자라면 Gemini API를 통해 3단계 사고 시스템을 직접 제어할 수 있습니다. 요청 난이도에 따라 연산량을 다르게 할당하면 비용 대비 성능을 극대화할 수 있을 겁니다.
필자의 시각
Gemini 3.1 Pro, Claude Opus 4.6, GPT-5.3-Codex — 2026년 2월에만 주요 모델 3개가 업데이트됐습니다.
모델 간 성능 차이가 점점 좁혀지면서, 이제 중요한 건 "어떤 모델이 더 좋은가"보다 **"내 작업에 어떤 모델을 어떻게 쓸 것인가"**입니다.
Gemini의 3단계 사고 시스템은 그 방향의 좋은 예시입니다. 하나의 모델을 모든 작업에 동일하게 쓰는 대신, 작업 복잡도에 맞춰 연산을 조절하는 실용적 접근입니다. 개인적으로는 다른 모델들도 비슷한 기능을 도입할 가능성이 높다고 봅니다.
참고