---
title: "Mac Studio로 로컬 LLM 돌리는 사람들의 실전 벤치마크 모음"
published: 2026-02-05T23:34:41.000Z
canonical: https://jeff.news/article/455
---
# Mac Studio로 로컬 LLM 돌리는 사람들의 실전 벤치마크 모음

HN에서 Mac Studio로 로컬 LLM을 돌리는 실사용 후기와 벤치마크가 쏟아진 스레드. 256GB M3 Ultra에서 235B 모델을 30tok/s로 돌리는 경험부터 M1-M4의 프롬프트 전처리 속도 한계, Apple의 RAM 끼워팔기 문제까지 다양한 관점이 공유됨.

- HN에서 "Mac Studio로 로컬 LLM 돌리는 사람?" 하고 물었더니 실사용 경험 + 벤치마크가 쏟아져 나온 스레드임

## 256GB M3 Ultra 사용자의 실전 후기

- Linux 워크스테이션(RAM 32GB + RTX 3060 12GB)에서 256GB M3 Ultra로 갈아탔는데, 양자화된 모델 품질이 꽤 만족스럽다는 후기
- **Qwen3-vl 235B를 Q4_K_M 양자화**로 돌리면서 워크스테이션 작업할 RAM도 충분히 남고, **약 30 tok/s** 나옴
- Qwen3 소형 모델(qwen3-coder 등)은 Q8 양자화까지 올려서 품질 위주로 사용 중
- **glm-4.7 (358B 모델)**도 Q3 양자화로 돌렸는데, 15 tok/s에 컨텍스트 128k로 줄여야 했지만 품질은 쓸 만했다고
- 가장 큰 장점은 풀 컨텍스트 할당이 가능해져서 더 크고 복잡한 작업을 넘길 수 있게 된 것. 이것만으로 투자 대비 충분히 값어치한다는 평

## 벤치마크 모음

**Mac Studio M3 Ultra (96GB RAM, 28C CPU, 60C GPU):**
- Gemma 3 27B (Q4_K_M): ~30 tok/s, TTFT ~0.52s
- GPT-OSS 20B: ~150 tok/s
- GPT-OSS 120B: ~23 tok/s, TTFT ~2.3s
- Qwen3 14B (Q6_K): ~47 tok/s, TTFT ~0.35s

**MacBook Pro M1 Max (64GB RAM, 10C CPU, 32C GPU):**
- Gemma 3 27B (Q8_0): ~7.5 tok/s, TTFT ~3.11s
- GPT-OSS 20B (8bit): ~38.4 tok/s, TTFT ~21.15s
- Olmo 3 32B Think: ~11.0 tok/s, TTFT ~22.12s

## M1~M4의 고질적 한계

- 현재 M1-M4의 가장 큰 문제는 **프롬프트 전처리(prefill) 속도**임. 긴 프롬프트를 넣으면 처리 시간이 상당히 오래 걸림
- 원인은 하드웨어 레벨에서 효율적인 행렬 곱셈 연산이 부족한 것인데, **M5 아키텍처에서 해결됐다**는 이야기가 있음
- 짧은 프롬프트(수천 토큰 이하) + 대형 모델 + 로컬 추론이 필요한 경우에는 Mac이 합리적인 선택이라는 결론

## 지정학적 이유로 산 사람도 있음

- 거주 지역 때문에 미국의 SOTA 모델에 접근이 차단되고, 중국 모델도 불편한 상황이라 직접 하드웨어를 사서 DeepSeek R1, Kimi-K2 등을 로컬로 돌리겠다는 사용자도 있었음

> [!TIP]
> LM Studio로 편하게 쓰다가, 나중에 LangChain + llama.cpp로 자체 시스템을 구축하고, PostgreSQL(pgvector + Apache AGE)로 대화 저장하겠다는 로드맵을 공유한 사람도 있음. 모델 편향을 줄이기 위해 앙상블로 돌리는 게 목표라는데, Perplexity Max의 "model council" 기능과 같은 원리임

## 문제: Apple의 RAM 끼워팔기

- RAM을 늘리려면 상위 CPU를 강제로 선택해야 하는 구조임. RAM 자체도 +$400~600으로 엄청 비싼데, 거기에 CPU 업그레이드로 +$1,000~2,000이 추가됨
- 32GB RAM → M5 칩 기본 $1,999 / 64GB RAM → M4 Max CPU 강제 선택으로 $3,899
- 예전(M1 시절)에는 베이스 CPU에 RAM만 올릴 수 있었는데, 지금은 로컬 LLM 수요를 알고 완전히 가격 장사하는 거라는 불만이 많음

## 핵심 포인트

- 256GB M3 Ultra에서 Qwen3-vl 235B Q4_K_M으로 ~30tok/s 달성
- M1-M4의 프롬프트 전처리 속도가 병목이고 M5에서 해결 예정
- Mac Studio M3 Ultra 96GB에서 Gemma 3 27B Q4_K_M ~30tok/s, GPT-OSS 20B ~150tok/s
- 64GB RAM을 위해 M4 Max CPU를 강제 선택해야 하는 Apple 가격 정책에 불만 다수

## 인사이트

Nvidia GPU 대비 절대 성능은 떨어지지만, 대용량 통합 메모리로 초대형 모델을 풀 컨텍스트로 돌릴 수 있다는 게 Mac의 실질적 장점. 다만 Apple의 RAM-CPU 번들 가격 정책이 이 시장을 의도적으로 착취하고 있다는 목소리가 커지고 있음.