---
title: "Gemma 4를 로컬에서 돌리는 완전 가이드 — LM Studio 헤드리스 CLI + Claude Code 연동까지"
published: 2026-04-05T17:13:51.000Z
canonical: https://jeff.news/article/1619
---
# Gemma 4를 로컬에서 돌리는 완전 가이드 — LM Studio 헤드리스 CLI + Claude Code 연동까지

Google Gemma 4 26B-A4B 모델을 LM Studio 0.4.0의 새 헤드리스 CLI로 로컬 실행하는 전체 과정을 다룸. MoE 아키텍처 덕분에 M4 Pro 48GB에서 초당 51토큰 생성 가능하며, Claude Code를 로컬 모델 백엔드로 전환하는 설정까지 포함.

- Google의 Gemma 4를 로컬에서 돌리는 완전 가이드가 나왔음 — LM Studio 0.4.0의 새 헤드리스 CLI와 Claude Code 연동까지 한 번에 정리
  - 14인치 MacBook Pro M4 Pro(48GB)에서 **초당 51토큰** 생성 가능

## Gemma 4 모델 스펙

- Google이 Gemma 4를 4가지 변종으로 출시함
  - **26B-A4B (MoE)**: 128개 전문가 + 공유 전문가 1개, 토큰당 8개 전문가(3.8B 파라미터)만 활성화
  - 대략 10B 밀집 모델 수준의 품질을 4B 추론 비용으로 낸다는 게 핵심
  - MMLU Pro 82.6%, AIME 2026 88.3%
  - **31B 밀집**: 가장 강력. MMLU Pro 85.2%, AIME 2026 89.2%
  - **E2B/E4B**: 온디바이스 배포용, 오디오 입력 지원

> [!IMPORTANT]
> MoE(Mixture-of-Experts) 아키텍처 덕분에 26B 파라미터 모델이지만 실제로는 4B만 활성화됨. 로컬 추론의 스위트 스팟이라는 평가

## LM Studio 0.4.0 — 데스크톱 앱 없이 돌린다

- 이번 버전에서 완전히 새로운 CLI 환경이 추가됨
  - **llmster 데몬**: 백그라운드 서비스로 모델 관리 — 더 이상 데스크톱 앱 안 켜도 됨
  - **lms CLI**: 다운로드, 로딩, 채팅, 서빙까지 커맨드라인에서 전부 해결
  - **연속 배칭(Continuous Batching)**: 동시 요청 병렬 처리
  - **MCP 통합**: 로컬 Model Context Protocol 지원
- 설치부터 실행까지 단 4줄이면 끝남
  - `curl -fsSL https://lmstudio.ai/install.sh | bash` → `lms daemon up` → `lms get google/gemma-4-26b-a4b` → `lms chat`

## 메모리 관리가 핵심이다

- 기본 모델 로딩에 약 17.6GiB 필요, 컨텍스트 길이에 따라 메모리가 선형 증가함
  - 4K 컨텍스트: ~17.8GiB
  - 48K 컨텍스트(기본값): ~21.05GiB
  - 128K 컨텍스트: ~26.7GiB
  - 256K 컨텍스트(최대): ~37.48GiB
- `--estimate-only` 플래그로 로딩 전에 메모리 사용량을 미리 확인할 수 있음
  - 48GB Mac에서 OS 오버헤드 4-6GB 빼고 계산해야 함

> [!WARNING]
> M4 Pro 48GB에서 Gemma 4 로딩 시 실제 메모리 사용량 46.69GB, 스왑 27.49GB 발생. GPU 온도 92°C까지 올라감. 장시간 사용하려면 64GB 이상 권장

## 하드웨어 튜닝 팁

- **GPU 오프로딩**: Apple Silicon은 `--gpu=max`로 통합 메모리 전부 활용 가능
- **TTL 설정**: `--ttl 1800`으로 30분 유휴 시 자동 언로드 — 메모리 관리에 유용
- **JIT 모델 로딩**: 서버 모드에서 요청이 오면 자동 로딩, TTL 후 자동 언로드

## Claude Code를 로컬 Gemma 4로 돌리기

- `.zshrc`에 `claude-lm` 함수 하나 추가하면 Claude Code가 로컬 LM Studio를 백엔드로 씀
  - `ANTHROPIC_BASE_URL`을 localhost:1234로 지정
  - 모든 모델 선택(Opus/Sonnet/Haiku/서브에이전트)을 Gemma 4로 라우팅
  - 컨텍스트 윈도우 48K, 자동 컴팩트 90%로 설정
  - API 타임아웃을 ~8.3시간으로 늘려서 느린 로컬 추론에 대응
- 클라우드↔로컬을 셸 alias 하나로 전환할 수 있다는 게 실용적인 포인트

## 한계점

- Gemma 4는 `lms chat`에서 자기 이름을 안 밝힘 — 그냥 "AI 어시스턴트"라고만 답함
- 기본 48K 컨텍스트는 최대 256K 대비 보수적인 설정
- Anthropic API의 완전 대체는 아님 — 확장 사고(extended thinking)나 초대형 컨텍스트 윈도우에서 한계 있음
- 48GB Mac에서 스왑까지 쓰는 건 다른 앱 동시 사용에 지장이 있을 수 있음

---

## 기술 맥락

- MoE(Mixture-of-Experts)가 로컬 추론에서 각광받는 이유는 간단해요. 파라미터 수는 많지만 실제 연산에 쓰이는 건 일부뿐이라 메모리 대비 품질 효율이 극대화되거든요. Gemma 4의 26B-A4B가 26B 파라미터를 갖고 있지만 실제로는 토큰당 4B만 활성화하는 게 그 원리에요
- LM Studio 0.4.0에서 데몬 방식으로 전환한 건 꽤 의미 있는 변화에요. 기존에는 Electron 데스크톱 앱을 켜놔야 했는데, 이제 `lms daemon up` 한 줄이면 백그라운드 서비스로 돌아가니까 서버 환경이나 SSH 세션에서도 쓸 수 있게 된 거예요
- 컨텍스트 길이와 메모리의 관계를 이해하는 게 로컬 LLM 운영의 핵심이에요. 모델 가중치 자체는 고정(17.6GiB)이지만, KV 캐시가 컨텍스트 길이에 비례해서 늘어나거든요. 256K까지 올리면 모델 가중치의 2배 가까운 추가 메모리가 필요해요
- Claude Code를 로컬 모델로 돌릴 수 있다는 건 프라이버시가 중요한 프로젝트에서 특히 유용해요. 다만 Anthropic API의 모든 기능을 지원하진 않으니, 복잡한 에이전트 워크플로우보다는 단순 코드 작성·리뷰 용도로 쓰는 게 현실적이에요

## 핵심 포인트

- Gemma 4 26B-A4B는 MoE로 26B 파라미터 중 4B만 활성화 — 10B 밀집 모델 수준 품질
- LM Studio 0.4.0에서 llmster 데몬 + lms CLI로 데스크톱 앱 없이 모델 운영 가능
- M4 Pro 48GB에서 51 tok/s, 단 메모리 46.69GB 사용·스왑 27.49GB 발생
- 컨텍스트 4K~256K에 따라 메모리 17.8~37.5GiB 선형 증가
- .zshrc에 claude-lm 함수 추가로 Claude Code를 로컬 Gemma 4 백엔드로 전환 가능

## 인사이트

MoE 모델이 로컬 추론의 스위트 스팟이라는 걸 구체적 수치와 설정으로 증명한 실용 가이드. 48GB Mac 사용자라면 바로 따라할 수 있는 수준의 디테일이 인상적임.