Mac Studio로 로컬 LLM 돌리는 사람들의 실전 벤치마크 모음

ai-ml 2026-02-05 약 5분

 tags

#mac-studio #llm #apple-silicon #local-inference #benchmark

vote

북마크

HN에서 Mac Studio로 로컬 LLM을 돌리는 실사용 후기와 벤치마크가 쏟아진 스레드. 256GB M3 Ultra에서 235B 모델을 30tok/s로 돌리는 경험부터 M1-M4의 프롬프트 전처리 속도 한계, Apple의 RAM 끼워팔기 문제까지 다양한 관점이 공유됨.

1
256GB M3 Ultra에서 Qwen3-vl 235B Q4_K_M으로 ~30tok/s 달성
2
M1-M4의 프롬프트 전처리 속도가 병목이고 M5에서 해결 예정
3
Mac Studio M3 Ultra 96GB에서 Gemma 3 27B Q4_K_M ~30tok/s, GPT-OSS 20B ~150tok/s
4
64GB RAM을 위해 M4 Max CPU를 강제 선택해야 하는 Apple 가격 정책에 불만 다수

HN에서 "Mac Studio로 로컬 LLM 돌리는 사람?" 하고 물었더니 실사용 경험 + 벤치마크가 쏟아져 나온 스레드임

256GB M3 Ultra 사용자의 실전 후기

Linux 워크스테이션(RAM 32GB + RTX 3060 12GB)에서 256GB M3 Ultra로 갈아탔는데, 양자화된 모델 품질이 꽤 만족스럽다는 후기
Qwen3-vl 235B를 Q4_K_M 양자화로 돌리면서 워크스테이션 작업할 RAM도 충분히 남고, 약 30 tok/s 나옴
Qwen3 소형 모델(qwen3-coder 등)은 Q8 양자화까지 올려서 품질 위주로 사용 중
glm-4.7 (358B 모델)도 Q3 양자화로 돌렸는데, 15 tok/s에 컨텍스트 128k로 줄여야 했지만 품질은 쓸 만했다고
가장 큰 장점은 풀 컨텍스트 할당이 가능해져서 더 크고 복잡한 작업을 넘길 수 있게 된 것. 이것만으로 투자 대비 충분히 값어치한다는 평

벤치마크 모음

Mac Studio M3 Ultra (96GB RAM, 28C CPU, 60C GPU):

Gemma 3 27B (Q4_K_M): ~30 tok/s, TTFT ~0.52s
GPT-OSS 20B: ~150 tok/s
GPT-OSS 120B: ~23 tok/s, TTFT ~2.3s
Qwen3 14B (Q6_K): ~47 tok/s, TTFT ~0.35s

MacBook Pro M1 Max (64GB RAM, 10C CPU, 32C GPU):

Gemma 3 27B (Q8_0): ~7.5 tok/s, TTFT ~3.11s
GPT-OSS 20B (8bit): ~38.4 tok/s, TTFT ~21.15s
Olmo 3 32B Think: ~11.0 tok/s, TTFT ~22.12s

M1~M4의 고질적 한계

현재 M1-M4의 가장 큰 문제는 프롬프트 전처리(prefill) 속도임. 긴 프롬프트를 넣으면 처리 시간이 상당히 오래 걸림
원인은 하드웨어 레벨에서 효율적인 행렬 곱셈 연산이 부족한 것인데, M5 아키텍처에서 해결됐다는 이야기가 있음
짧은 프롬프트(수천 토큰 이하) + 대형 모델 + 로컬 추론이 필요한 경우에는 Mac이 합리적인 선택이라는 결론

지정학적 이유로 산 사람도 있음

거주 지역 때문에 미국의 SOTA 모델에 접근이 차단되고, 중국 모델도 불편한 상황이라 직접 하드웨어를 사서 DeepSeek R1, Kimi-K2 등을 로컬로 돌리겠다는 사용자도 있었음

💡팁

> LM Studio로 편하게 쓰다가, 나중에 LangChain + llama.cpp로 자체 시스템을 구축하고, PostgreSQL(pgvector + Apache AGE)로 대화 저장하겠다는 로드맵을 공유한 사람도 있음. 모델 편향을 줄이기 위해 앙상블로 돌리는 게 목표라는데, Perplexity Max의 "model council" 기능과 같은 원리임

문제: Apple의 RAM 끼워팔기

RAM을 늘리려면 상위 CPU를 강제로 선택해야 하는 구조임. RAM 자체도 +$400600으로 엄청 비싼데, 거기에 CPU 업그레이드로 +$1,0002,000이 추가됨
32GB RAM → M5 칩 기본 $1,999 / 64GB RAM → M4 Max CPU 강제 선택으로 $3,899
예전(M1 시절)에는 베이스 CPU에 RAM만 올릴 수 있었는데, 지금은 로컬 LLM 수요를 알고 완전히 가격 장사하는 거라는 불만이 많음

Nvidia GPU 대비 절대 성능은 떨어지지만, 대용량 통합 메모리로 초대형 모델을 풀 컨텍스트로 돌릴 수 있다는 게 Mac의 실질적 장점. 다만 Apple의 RAM-CPU 번들 가격 정책이 이 시장을 의도적으로 착취하고 있다는 목소리가 커지고 있음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

Mac Studio로 로컬 LLM 돌리는 사람들의 실전 벤치마크 모음

요약

핵심 포인트

분석

256GB M3 Ultra 사용자의 실전 후기

벤치마크 모음

M1~M4의 고질적 한계

지정학적 이유로 산 사람도 있음

문제: Apple의 RAM 끼워팔기

인사이트

댓글

댓글

Mac Studio로 로컬 LLM 돌리는 사람들의 실전 벤치마크 모음

요약

핵심 포인트

분석

256GB M3 Ultra 사용자의 실전 후기

벤치마크 모음

M1~M4의 고질적 한계

지정학적 이유로 산 사람도 있음

문제: Apple의 RAM 끼워팔기

인사이트

댓글

댓글

관련 기사