---
title: "구글 젬마 4 총정리 — 26B MoE vs 31B Dense, 엣지 모델까지 Apache 2.0으로 풀었다"
published: 2026-04-02T23:05:03.071Z
canonical: https://jeff.news/article/1501
---
# 구글 젬마 4 총정리 — 26B MoE vs 31B Dense, 엣지 모델까지 Apache 2.0으로 풀었다

구글이 제미나이 3 기술 기반의 오픈 모델 젬마 4를 4가지 사이즈(E2B, E4B, 26B MoE, 31B Dense)로 출시함. 31B가 Arena 리더보드 오픈모델 3위, 20배 큰 모델도 압도하는 파라미터 효율성을 보여주며, 엣지 모델은 모바일/IoT에서 오프라인 구동과 오디오 입력까지 지원함. Apache 2.0 라이선스 채택.

구글이 역대 가장 강력한 오픈 모델 패밀리인 **젬마 4(Gemma 4)**를 발표함. 제미나이 3와 동일한 기술 기반으로, 4가지 사이즈로 출시되며 Apache 2.0 라이선스를 채택함.

> [!IMPORTANT]
> 젬마 4는 **Apache 2.0 라이선스**로 출시됨. 상업적 활용에 제약이 없고, 데이터와 모델에 대한 완전한 제어권을 개발자에게 부여함.

## 젬마버스 생태계와 성능

- 젬마 시리즈 누적 **4억+ 다운로드**, **10만+ 변형 모델**로 구성된 '젬마버스' 생태계가 이미 형성되어 있음
- 벤치마크 성적이 인상적임
  - **31B Dense**: Arena AI 텍스트 리더보드 오픈모델 기준 **3위**
  - **26B MoE**: 동일 리더보드 **6위**
  - 자기보다 **20배 큰 모델도 압도**하는 파라미터 효율성을 보여줌

> [!IMPORTANT]
> 26B 모델이 20배 큰 모델을 이기는 건 단순 홍보 문구가 아님. 파라미터당 성능(byte-for-byte)이 이 모델의 핵심 설계 철학임.

## 4가지 모델 라인업

### 대형 모델 (26B MoE / 31B Dense)

- **26B MoE (Mixture of Experts)**
  - 전체 26B 파라미터 중 **~38억 개만 활성화**해서 추론함
  - **레이턴시(속도) 중심** 설계 — 빠른 응답이 필요한 서비스에 적합
  - 컨텍스트 윈도우: **256K**
- **31B Dense**
  - 전체 파라미터를 모두 사용하는 전통적 구조
  - **출력 품질 중심** 설계 — 미세조정(fine-tuning) 기반 모델로 활용하기에 최적
  - 비양자화(bfloat16) 기준 단일 **80GB NVIDIA H100 GPU**에서 구동 가능
  - 양자화 버전은 일반 소비자용 GPU에서도 돌아감
  - 컨텍스트 윈도우: **256K**

### 엣지 모델 (E2B / E4B)

- **E2B (Effective 2B)** / **E4B (Effective 4B)**
  - 추론 시 각각 약 20억, 40억 파라미터만 활용 → 메모리/배터리 소모 최소화
  - **모바일, IoT, 라즈베리 파이, NVIDIA Jetson Nano** 등 엣지 디바이스에서 **오프라인 구동** 가능
  - 거의 **제로 레이턴시**로 동작
  - 컨텍스트 윈도우: **128K**
  - 다른 모델과 차별화되는 점: **네이티브 오디오 입력** 지원 (음성 인식)
  - Google Pixel팀, **Qualcomm**, **MediaTek**과 협력해 최적화함

## 핵심 기능 상세

- **고급 추론(Advanced Reasoning)**
  - 다단계 계획 수립, 깊은 논리적 사고
  - 수학, 복합 지시 이행 벤치마크에서 큰 폭 개선
- **에이전트 기반 워크플로우(Agentic Workflows)**
  - 함수 호출(function calling), 구조화된 JSON 출력, 네이티브 시스템 지침 기본 지원
  - 다양한 툴/API와 상호작용하는 자율형 에이전트 구축 가능
- **코드 생성**
  - 고성능 오프라인 코드 생성 지원
  - 워크스테이션을 **로컬 중심(Local-first) AI 코드 어시스턴트**로 전환
- **비전 + 오디오**
  - 모든 모델이 비디오/이미지 기본 처리, 가변 해상도 지원
  - E2B/E4B는 오디오 입력까지 추가
- **140개+ 언어** 기본 학습
- 컨텍스트 윈도우: 엣지 128K / 대형 256K

## MoE vs Dense — 어떤 걸 써야 하나

- 이번 라인업에서 가장 중요한 선택지가 26B MoE vs 31B Dense임
- **속도가 중요하면 → 26B MoE**
  - 38억 파라미터만 활성화하므로 추론 속도가 빠름
  - 실시간 서비스, 챗봇, 에이전트 파이프라인에 유리
- **품질이 중요하면 → 31B Dense**
  - 전체 파라미터를 사용하므로 출력 품질이 높음
  - 미세조정해서 특정 도메인에 특화시키기 좋음
  - 커스텀 모델의 베이스로 쓰기에 적합

## 하드웨어 및 배포 생태계

- **NVIDIA**: Jetson Nano부터 Blackwell GPU까지 전 라인업 최적화, RTX 최적화 포함
- **AMD**: 오픈소스 ROCm 스택으로 연동
- **Google Cloud**: TPU 가속, Vertex AI, Cloud Run, GKE, Sovereign Cloud 배포 지원
- **안드로이드**: AICore Developer Preview에서 에이전트 흐름 프로토타이핑 가능, Gemini Nano 4와 향후 호환
- 출시일부터 지원하는 툴: **Hugging Face, vLLM, Ollama, NVIDIA NIM, Kaggle**
- 모델 다운로드: Hugging Face, Kaggle, Ollama
- 미세조정: Google Colab, Vertex AI, 개인 게이밍 GPU에서도 가능

## 실제 활용 사례

- **INSAIT**: 젬마 기반 불가리아어 우선 언어 모델(BgGPT) 개발
- **예일대 + 구글**: 암 치료 신규 경로 발견 프로젝트 **Cell2Sentence-Scale** 진행
- Kaggle에서 **Gemma 4 Good Challenge** 진행 중

## 핵심 포인트

- 젬마 4는 E2B, E4B, 26B MoE, 31B Dense 4가지 사이즈로 출시, 제미나이 3과 동일 기술 기반
- 31B Dense는 Arena 리더보드 오픈모델 3위, 26B MoE는 6위 — 20배 큰 모델도 압도
- 26B MoE는 38억 파라미터만 활성화해 속도 중심, 31B Dense는 품질 중심으로 미세조정 베이스 모델에 적합
- E2B/E4B는 모바일·IoT 최적화, 오프라인 구동, 네이티브 오디오 입력 지원, 128K 컨텍스트
- Apache 2.0 라이선스로 상업적 활용 제약 없음, 출시일부터 Hugging Face·vLLM·Ollama·NVIDIA NIM 지원

## 인사이트

MoE vs Dense 선택지를 같은 모델 패밀리 안에서 제공하는 건 실무적으로 의미가 큼. 속도가 중요한 서비스(챗봇, 에이전트)에는 26B MoE, 품질이 중요한 미세조정 기반 작업에는 31B Dense를 쓸 수 있어서 하나의 생태계 안에서 용도별 분기가 가능함. 엣지 모델의 오디오 입력 지원도 온디바이스 음성 AI의 진입장벽을 크게 낮추는 요소임.