Google Gemma 4 — 스마트폰에서 돌리는 오픈소스 AI, Apache 2.0으로 문 열다

Google이 2026년 4월 2일, 오픈 모델 패밀리 Gemma 4를 공식 발표했습니다. 4개 모델 라인업과 Apache 2.0 라이선스 전환이 핵심입니다. 스마트폰부터 데스크톱 GPU까지, 로컬 환경에서 멀티모달 AI를 자유롭게 상용화할 수 있는 시대가 열렸습니다.

Gemma 4 모델 라인업

Gemma 4는 용도와 하드웨어에 맞춘 4가지 모델로 구성됩니다.

E2B (Effective 2B) — 스마트폰, Raspberry Pi, 브라우저를 겨냥한 초경량 모델입니다. 2-bit 양자화 시 1.5GB 메모리로도 구동됩니다. 4-bit 기준 약 5GB RAM이면 충분합니다. 텍스트, 이미지, 오디오 입력을 모두 처리하는 멀티모달 모델입니다.

E4B (Effective 4B) — E2B보다 한 단계 높은 품질을 제공합니다. 태블릿이나 중급 스마트폰에서 실행 가능하며, 4-bit 양자화 기준 약 5GB+ RAM으로 구동됩니다. 마찬가지로 오디오 입력을 지원합니다.

26B A4B (MoE) — 총 26B 파라미터 중 4B만 활성화하는 Mixture-of-Experts 모델입니다. 4-bit 기준 약 18GB RAM이 필요하며, 활성 파라미터 대비 뛰어난 성능을 냅니다.

31B Dense — 플래그십 모델입니다. 4-bit 양자화 기준 약 20GB RAM이 필요하며, RTX 4090 등 데스크톱 GPU에서 로컬 실행이 가능합니다.

"E"는 Effective(유효) 파라미터를 의미합니다. 기존 Gemma 3n에서 도입한 Per-Layer Embedding(PLE) 기술로, 실제 파라미터 수보다 훨씬 적은 메모리로 모델을 구동합니다. "A"는 Active 파라미터로, MoE 아키텍처에서 추론 시 실제 활성화되는 파라미터 수를 뜻합니다.

모델	유효/활성 파라미터	컨텍스트	구동 RAM (4-bit)	주요 타겟
E2B	2B	128K	~5 GB	스마트폰, RPi, 브라우저
E4B	4B	128K	~5 GB+	태블릿, 노트북
26B A4B	4B active / 26B total	256K	~18 GB	데스크톱 GPU
31B	31B	256K	~20 GB	RTX 4090급 GPU

온디바이스 성능: 숫자로 보는 실력

Google Developers Blog에 공개된 벤치마크 수치입니다.

Raspberry Pi 5 (CPU만 사용) — E2B 모델이 133 prefill tokens/s, 7.6 decode tokens/s를 기록했습니다. $80짜리 싱글보드 컴퓨터에서 LLM이 돌아가는 셈입니다.

Qualcomm Dragonwing IQ8 (NPU 가속) — 3,700 prefill tokens/s, 31 decode tokens/s를 달성했습니다. 모바일 NPU를 활용하면 데스크톱 수준의 추론 속도가 나옵니다.

LiteRT-LM 런타임 — Google의 온디바이스 추론 엔진이 4,000 입력 토큰을 2개 에이전트 스킬로 3초 이내에 처리합니다. 2-bit/4-bit 양자화, 구조화된 출력(constrained decoding), 동적 컨텍스트 길이를 지원합니다.

31B 플래그십 모델은 Arena AI 오픈 모델 텍스트 리더보드 3위(LMArena 1452점)에 올랐습니다. 26B A4B는 4B 활성 파라미터만으로 6위(LMArena 1441점)를 기록했습니다.

Apache 2.0 전환: 라이선스가 바뀐 진짜 이유

VentureBeat는 "라이선스 변경이 벤치마크보다 중요할 수 있다"고 분석했습니다.

기존 Gemma 모델은 Google의 자체 Gemma Terms of Use를 적용했습니다. 이 라이선스에는 몇 가지 걸림돌이 있었습니다.

Harmful Use 조항: Google이 일방적으로 업데이트할 수 있는 금지 사용 정책
하위 전파 의무: Gemma 기반 프로젝트에 Google의 규칙을 강제 적용해야 하는 조항
합성 데이터 조항: Gemma로 생성한 합성 데이터로 학습한 모델에도 라이선스가 전파될 가능성

Google Open Source Blog에 따르면, Gemma 4는 이 모든 조항을 걷어내고 Apache 2.0을 채택했습니다. 커스텀 조항 없이, Harmful Use 예외 없이, 재배포 제한 없이 — OSI 인증 표준 라이선스입니다.

이는 기업이 법무팀 검토 없이 Gemma 4를 제품에 즉시 통합할 수 있다는 의미입니다. Meta의 Llama가 여전히 커스텀 라이선스(Community License)를 사용하는 것과 대비됩니다.

Gemini Nano 4와 Android 통합

Gemma 4 기술은 Android 생태계에도 직접 적용됩니다.

Gemini Nano 4는 Gemma 4를 기반으로 한 Android 온디바이스 모델입니다. Google은 AICore Developer Preview를 통해 개발자들이 테스트할 수 있도록 공개했습니다. 앱 개발자는 AICore API를 통해 시스템 레벨의 AI 기능을 활용할 수 있습니다.

Google AI Edge Gallery 앱을 통해 iOS와 Android에서 Gemma 4의 에이전트 스킬(Agent Skills)을 직접 체험할 수 있습니다. 멀티스텝 자율 워크플로우, 외부 도구 연동, 구조화된 출력 등 에이전트 기능이 기기 위에서 실행됩니다.

전망

Gemma 4의 등장은 로컬 AI 생태계의 구조적 전환점입니다.

Apache 2.0 라이선스는 Gemma를 진정한 오픈소스 모델로 만들었습니다. Ollama, llama.cpp, vLLM 등 기존 로컬 AI 생태계와의 통합이 법적 부담 없이 가능해졌습니다.

E2B 모델의 초경량화는 스마트폰, IoT, 브라우저까지 LLM의 실행 범위를 넓혔습니다. 1.5GB 메모리로 멀티모달 AI가 돌아가는 시대입니다.

개인적으로는 Apache 2.0 전환이 가장 큰 변화라고 봅니다. 모델 성능은 세대마다 올라가지만, 라이선스 장벽이 낮아지는 건 생태계 전체의 판을 바꾸는 결정이기 때문입니다. Google이 Meta의 Llama, Mistral과의 오픈 모델 경쟁에서 라이선스 카드를 먼저 꺼낸 셈입니다.

참고

Google Gemma 4스마트폰에서 돌리는 오픈소스 AI, Apache 2.0으로 문 열다

Gemma 4 모델 라인업

온디바이스 성능: 숫자로 보는 실력

Apache 2.0 전환: 라이선스가 바뀐 진짜 이유

Gemini Nano 4와 Android 통합

전망

관련 포스트

MiniMax M2.5 — Claude의 1/20 비용으로 프론티어 수준을 찍다

Google Gemini Robotics On-Device — 클라우드 없이 로봇을 움직이는 AI

DeepSeek V4 임박 — 오픈소스 AI 경쟁의 다음 라운드