---
title: "구글, 노트북에서 돌리는 멀티모달 오픈 모델 ‘젬마 4 12B’ 공개"
published: 2026-06-04T08:27:06.709Z
canonical: https://jeff.news/article/3687
---
# 구글, 노트북에서 돌리는 멀티모달 오픈 모델 ‘젬마 4 12B’ 공개

구글이 개인 노트북과 온디바이스 환경에서 멀티모달 AI 에이전트를 돌릴 수 있는 오픈 모델 ‘젬마 4 12B’를 공개했다. 별도 이미지·오디오 인코더를 덜어낸 구조, 16GB급 메모리 환경 지원, 아파치 2.0 라이선스 배포가 핵심이다.

- 구글이 ‘젬마 4 12B’를 공개함. 포인트는 클라우드가 아니라 개인 노트북 같은 온디바이스 환경에서 멀티모달 AI를 직접 돌리는 쪽임
  - 기존 온디바이스 모델인 E4B와 더 큰 26B 전문가 혼합 모델 사이를 메우는 중형 라인업으로 보면 됨
  - 젬마 시리즈는 누적 다운로드 1억 5천만 건을 넘겼고, 이번 모델로 로컬 AI 생태계를 더 키우겠다는 그림임

- 제일 흥미로운 건 멀티모달 구조를 꽤 과감하게 줄였다는 점임
  - 보통 멀티모달 모델은 이미지나 오디오를 전용 인코더가 먼저 처리하고, 그 결과를 대규모 언어 모델(LLM)에 넘김
  - 그런데 이 방식은 지연 시간과 메모리 사용량이 커지기 쉬움. 로컬 노트북에서 돌릴 때는 이게 바로 병목임
  - 젬마 4 12B는 비전과 오디오 입력이 LLM 백본으로 더 직접 흘러가도록 만든 인코더 프리(Encoder-free) 구조를 내세움

- 이미지 처리는 무거운 비전 인코더 대신 훨씬 가벼운 임베딩 모듈로 바뀜
  - 기사에 따르면 단일 행렬 곱셈, 위치 임베딩, 정규화 정도로 시각 입력을 다루는 구조임
  - 결국 LLM 백본이 시각 정보 해석까지 더 많이 맡는 방식이라, 모델 전체 파이프라인이 단순해짐

- 오디오는 더 공격적임. 오디오 인코더를 아예 없앴다고 설명함
  - 원시 오디오 신호를 텍스트 토큰과 같은 차원의 공간으로 직접 투영함
  - 모델 입장에서는 오디오도 텍스트처럼 바로 읽을 수 있는 입력으로 다루는 셈임
  - 중형급 모델에서 네이티브 오디오 입력을 기본 탑재했다는 점도 구글이 강조하는 부분임

> [!IMPORTANT]
> 구글은 젬마 4 12B가 26B급 모델의 절반도 안 되는 메모리 공간을 쓰면서도 표준 벤치마크에서 근접한 성능을 냈다고 주장함. 실제 체감은 배포된 가중치로 로컬 테스트해봐야겠지만, 방향성은 꽤 분명함.

- 하드웨어 기준도 개발자 입장에서 현실적인 편임
  - 구글은 16GB 브이램 또는 통합 메모리를 가진 소비자용 노트북에서 로컬 AI 에이전트를 안정적으로 돌리는 시나리오를 제시함
  - 값비싼 클라우드 추론 서버 없이 다단계 추론과 에이전트 워크플로를 실험할 수 있다는 얘기임
  - 로컬에서 돌아가면 비용뿐 아니라 개인정보, 지연 시간, 오프라인 사용성도 같이 좋아짐

- 추론 속도 쪽에는 멀티 토큰 예측(MTP) 드래프터가 들어감
  - 일반적인 자동회귀 생성은 다음 토큰을 하나씩 예측하는데, MTP는 여러 토큰을 동시에 예측해 응답 생성을 빠르게 만드는 방식임
  - 온디바이스 모델은 절대 성능보다 ‘답이 답답하지 않게 나오는가’가 중요해서 이런 최적화가 꽤 큼

- 배포 방식은 개발자 친화적으로 밀어붙임
  - 라이선스는 아파치 2.0이라 상업적 연구와 서비스 개발에 활용하기 쉬운 편임
  - 사전 학습 체크포인트와 명령어 미세조정 가중치는 허깅페이스와 캐글에서 받을 수 있음
  - 엘엠 스튜디오, 올라마, 구글 AI 엣지 갤러리, 라이트알티 엘엠 명령줄 도구 같은 로컬 실행 환경도 지원함

- 프레임워크 지원도 넓게 깔아뒀음
  - 허깅페이스 트랜스포머, 라마닷씨피피, 엠엘엑스, 에스지랭, 브이엘엘엠을 통해 로컬 추론 파이프라인을 만들 수 있음
  - 언슬로스를 결합하면 가중치 미세조정도 빠르게 할 수 있다고 안내함
  - 공식 젬마 스킬 저장소도 새로 공개해 에이전트가 복합 작업을 수행하는 데 필요한 스킬 라이브러리를 제공함

---
## 기술 맥락

- 이번 선택의 핵심은 멀티모달 모델에서 무거운 전용 인코더를 줄이는 거예요. 이미지와 오디오를 각각 큰 인코더로 처리하면 정확도는 챙기기 쉽지만, 노트북 같은 로컬 환경에서는 메모리와 지연 시간이 바로 발목을 잡거든요.

- 구글이 12B 크기를 고른 이유도 여기랑 맞물려요. 너무 작으면 에이전트 작업이나 멀티모달 추론이 약해지고, 26B급으로 가면 소비자용 기기에서 돌리기 부담스러워져요. 16GB 메모리급 장비를 목표로 잡은 건 개발자 실험 환경을 꽤 현실적으로 본 선택이에요.

- 멀티 토큰 예측도 같은 맥락이에요. 로컬 모델은 클라우드 GPU처럼 힘으로 밀어붙이기 어렵기 때문에, 한 번에 여러 토큰을 예측해서 체감 응답 속도를 줄이는 쪽이 중요해요. 사용자가 에이전트에게 일을 시켰을 때 기다림이 길어지면 제품 경험이 바로 무너지거든요.

- 아파치 2.0 배포와 라마닷씨피피, 올라마, 허깅페이스 지원은 실제 도입 장벽을 낮추는 장치예요. 모델만 공개하면 끝이 아니라, 개발자가 자기 노트북이나 사내 장비에서 바로 테스트하고 파인튜닝까지 이어갈 수 있어야 생태계가 움직여요.

## 핵심 포인트

- 젬마 4 12B는 기존 소형 모델과 26B급 대형 모델 사이를 메우는 중형 온디바이스 모델이다.
- 이미지와 오디오용 무거운 인코더를 제거해 지연 시간과 메모리 사용량을 줄였다.
- 16GB 브이램 또는 통합 메모리를 가진 소비자용 노트북에서도 로컬 AI 에이전트 구동을 목표로 한다.
- 허깅페이스, 캐글, 올라마, 엘엠 스튜디오, 라마닷씨피피, 브이엘엘엠 등 개발 생태계 지원이 넓다.

## 인사이트

온디바이스 AI가 ‘재미있는 데모’에서 ‘실제 개발자가 로컬에서 실험할 수 있는 선택지’로 넘어가는 흐름이 더 선명해졌음. 특히 아파치 2.0 배포와 로컬 추론 도구 지원은 한국 개발자 입장에서도 바로 만져볼 명분이 꽤 큼.
