---
title: "구글, 노트북에서 돌리는 멀티모달 모델 Gemma 4 12B 공개"
published: 2026-06-03T16:04:42.000Z
canonical: https://jeff.news/article/3641
---
# 구글, 노트북에서 돌리는 멀티모달 모델 Gemma 4 12B 공개

구글이 Gemma 4 12B를 공개했음. 이미지와 오디오용 별도 인코더를 줄이거나 없애고, 16GB 메모리급 노트북에서도 로컬 멀티모달 에이전트를 돌리는 쪽에 초점을 맞춘 모델임.

- 구글이 Gemma 4 12B를 공개함. 포인트는 “멀티모달 에이전트를 노트북에서 직접 돌리자”임
  - 기존의 작은 E4B 모델과 더 강한 26B Mixture of Experts(MoE) 모델 사이를 메우는 중간급 모델로 소개됨
  - 구글은 Gemma 4 계열이 개발자 커뮤니티에서 1억 5천만 다운로드를 넘겼다고 밝힘

- 이번 모델의 제일 튀는 부분은 인코더 없는 멀티모달 구조임
  - 보통 멀티모달 모델은 이미지나 오디오를 별도 인코더가 먼저 처리한 뒤, 그 결과를 언어 모델에 넘김
  - Gemma 4 12B는 비전과 오디오 입력을 LLM 백본 쪽으로 더 직접 흘려보내는 방식으로 메모리와 지연시간을 줄이려 함

> [!IMPORTANT]
> 구글이 강조하는 핵심 수치는 16GB VRAM 또는 통합 메모리에서 로컬 실행 가능하다는 점임. 멀티모달 모델을 “클라우드 API 전용 장난감”에서 “노트북 앱에 붙일 수 있는 부품”으로 내리려는 방향이 보임.

- 비전 처리 방식도 꽤 과감하게 단순화됨
  - 기존 Gemma 4의 비전 인코더 대신 단일 행렬 곱셈, 위치 임베딩, 정규화로 구성된 가벼운 임베딩 모듈을 사용함
  - 그 뒤의 시각 정보 처리는 LLM 백본이 맡는 구조라, 멀티모달 파이프라인이 훨씬 납작해짐

- 오디오는 더 세게 줄였음. 아예 오디오 인코더를 제거했다고 함
  - 원시 오디오 신호를 텍스트 토큰과 같은 차원의 공간으로 투영함
  - Gemma 계열의 중간 크기 모델에서 네이티브 오디오 입력을 지원하는 건 이번이 처음이라고 소개됨

- 성능 쪽에서는 26B MoE 모델에 가까운 벤치마크를 목표로 잡았음
  - 정확한 표가 본문에 길게 나오진 않지만, 구글은 “표준 벤치마크에서 더 큰 26B MoE에 근접”한다고 설명함
  - 메모리 풋프린트는 절반 미만으로 줄였다고 하니, 타깃은 명확함. 데스크톱급 서버가 아니라 소비자 노트북임

- 개발자 입장에서는 라이선스와 생태계 지원도 중요함
  - Apache 2.0 라이선스로 공개됨
  - Multi-Token Prediction(MTP) drafter도 포함돼 지연시간을 줄이는 쪽까지 챙겼다고 함

---
## 기술 맥락
- Gemma 4 12B의 선택은 “모델을 더 크게 만들기”보다 “주변 인코더 비용을 줄이기”에 가까워요. 로컬에서 멀티모달을 돌릴 때는 파라미터 수뿐 아니라 이미지·오디오 전처리 모듈이 잡아먹는 메모리도 꽤 크거든요.

- 비전 인코더를 가벼운 임베딩 모듈로 바꾼 건 LLM 백본이 더 많은 일을 하게 만드는 설계예요. 이렇게 하면 파이프라인은 단순해지지만, 백본이 시각 정보를 제대로 소화하도록 학습시키는 난도가 올라가요.

- 오디오 인코더를 제거하고 원시 신호를 토큰 공간에 맞춰 투영하는 방식은 더 공격적이에요. 음성을 텍스트처럼 다루는 쪽에 가까워서, 지연시간과 메모리에는 유리하지만 입력 표현을 얼마나 잘 학습했는지가 모델 품질을 좌우해요.

- 16GB 메모리 타깃은 한국 개발자에게도 꽤 현실적인 기준이에요. 회사 지급 노트북이나 개인 맥북·게이밍 노트북에서 로컬 에이전트 프로토타입을 돌릴 수 있느냐가 실제 도입 가능성을 가르거든요.

## 핵심 포인트

- Gemma 4 12B는 26B MoE 모델에 가까운 벤치마크 성능을 더 작은 메모리 풋프린트로 제공한다고 소개됨
- 비전과 오디오 입력을 별도 멀티모달 인코더 없이 LLM 백본으로 직접 흘려보내는 구조가 핵심임
- 16GB VRAM 또는 통합 메모리 환경에서 로컬 실행을 목표로 하고, Apache 2.0 라이선스로 공개됨

## 인사이트

요즘 로컬 AI의 병목은 단순히 모델 크기보다 입력 모달리티를 처리하는 주변 구조까지 포함한 전체 메모리 비용임. 구글이 인코더 없는 멀티모달 구조를 밀어붙이는 건, 노트북급 에이전트 시장을 꽤 진지하게 보고 있다는 신호로 읽힘.
