Google Gemini Robotics On-Device클라우드 없이 로봇을 움직이는 AI
로봇이 클라우드에 의존하는 시대가 끝나고 있습니다. Google DeepMind가 2026년 3월 공개한 Gemini Robotics On-Device는 로봇 하드웨어 위에서 직접 실행되는 Vision-Language-Action(VLA) 모델입니다. 네트워크 연결 없이도 복잡한 조작 작업을 수행합니다.
Gemini Robotics On-Device란
Gemini Robotics On-Device는 Gemini 2.0 기반의 VLA 모델을 로봇 온보드 컴퓨팅에 맞게 경량화한 버전입니다. 카메라 입력과 자연어 명령을 동시에 처리하고, 실시간으로 로봇 관절 제어 신호를 출력합니다.
핵심은 로컬 실행입니다. 클라우드 서버에 영상을 보내고 응답을 기다릴 필요가 없습니다. 양팔 로봇(bi-arm)에서 두 팔의 협응 동작까지 기기 내에서 처리합니다. Google DeepMind 연구팀은 이를 "embodied intelligence at the edge"라고 설명합니다.
주요 능력
General Dexterity — 특정 작업 하나만 하는 로봇이 아닙니다. 물건 집기, 접기, 서랍 열기, 도구 사용까지 범용 손재주를 갖추고 있습니다. DeepMind 시연 영상에서는 ALOHA 로봇이 양팔로 수건을 접는 장면이 공개됐습니다.
자연어 명령 수행 — "파란색 컵을 왼쪽 선반에 올려줘" 같은 자연어 지시를 이해하고 실행합니다. 별도의 프로그래밍 없이 사람의 말을 바로 행동으로 변환합니다.
50~100개 데모로 적응 — 새로운 작업을 가르칠 때 수만 건의 데이터가 필요하지 않습니다. 50~100개 정도의 시연 데이터만으로 새 작업에 적응할 수 있습니다. 이 수치는 기존 로봇 학습 대비 크게 낮은 편입니다.
Cross-Embodiment — 하나의 모델이 여러 형태의 로봇에서 작동합니다. 양팔 로봇, 단일 로봇 팔, 휴머노이드까지 동일한 기반 모델을 공유합니다.
Cloud vs On-Device: 무엇이 다른가
기존 Gemini Robotics(클라우드 버전)는 Gemini 2.0의 풀 성능을 사용합니다. 복잡한 장면 이해, 장기 계획 수립, 다단계 추론에 강합니다. 대신 네트워크 연결이 필수이고, 지연(latency)이 발생합니다.
On-Device 버전은 다릅니다. 네트워크 없이 동작하고, 지연 시간이 극도로 낮습니다. 공장 내부, 물류 창고, 네트워크가 불안정한 환경에서 실시간 반응이 가능합니다. 대역폭 제약도 없습니다.
트레이드오프는 있습니다. 온디바이스 모델은 클라우드 대비 추론 범위가 좁을 수 있습니다. Google은 두 버전을 상호 보완적으로 설계했습니다. 클라우드로 고수준 계획을 세우고, 실행은 온디바이스가 담당하는 하이브리드 구조도 가능합니다.
파트너 로봇 플랫폼
Google은 세 가지 주요 로봇 플랫폼에서 Gemini Robotics On-Device를 테스트하고 있습니다.
ALOHA — Google DeepMind가 자체 개발한 양팔 텔레오퍼레이션 로봇입니다. Gemini Robotics의 기본 학습 플랫폼으로, 정교한 양손 조작 실험에 사용됩니다.
Franka FR3 — 독일 Franka Robotics의 산업용 협동 로봇입니다. 정밀 조작이 필요한 연구 환경에서 Gemini 모델의 범용성을 검증하는 데 활용됩니다.
Apollo by Apptronik — 미국 Apptronik이 개발한 휴머노이드 로봇입니다. 전신 이동과 팔 조작을 동시에 수행하며, Gemini의 cross-embodiment 능력을 가장 극적으로 보여주는 플랫폼입니다.
접근성과 안전
현재 Gemini Robotics On-Device는 Trusted Tester Program을 통해 제한적으로 공개되고 있습니다. 선정된 연구 기관과 파트너사만 SDK에 접근할 수 있습니다.
개발자 도구도 함께 제공됩니다. MuJoCo 시뮬레이터와 통합되어, 실제 로봇 없이도 모델을 시험할 수 있습니다. Google Developers Blog에 따르면 SDK는 Python 기반이며, 기존 로봇 제어 스택과의 통합을 고려한 설계입니다.
안전 측면에서 Google은 물리적 안전(physical safety)과 AI 안전(alignment)을 분리해 접근하고 있습니다. 로봇의 힘 제한, 충돌 감지, 비상 정지 같은 하드웨어 레벨 안전장치는 기본이고, 모델 레벨에서도 위험한 명령을 거부하는 필터가 포함되어 있습니다.
전망
이 섹션은 필자의 개인적인 견해입니다.
On-Device 로봇 AI는 산업 자동화의 병목을 근본적으로 바꿀 수 있습니다. 지금까지 로봇은 "프로그래밍된 대로만" 움직였습니다. VLA 모델이 로봇 위에 직접 올라가면, 프로그래밍 비용과 적응 시간이 크게 줄어듭니다.
하지만 현실적 한계도 있습니다. 온디바이스 컴퓨팅 파워에는 물리적 제약이 있고, 모델 크기와 정확도 사이의 균형은 아직 검증이 필요합니다. Trusted Tester 단계인 만큼, 상용 배포까지는 시간이 걸릴 것입니다.
그래도 방향성은 분명합니다. 클라우드에서 엣지로, 소프트웨어에서 물리 세계로 — AI가 이동하고 있습니다. Gemini Robotics On-Device는 그 이동의 가장 구체적인 사례입니다.
참고 자료
- Google DeepMind, "Gemini Robotics: Bringing AI into the Physical World" (2026)
- Google Developers Blog, "Introducing Gemini Robotics and Gemini Robotics On-Device"
- MIT Technology Review, "Google's new AI can control robots without the cloud" (2026)
- Apptronik, "Apollo Humanoid Robot Platform"