Ollama, Apple Silicon에서 MLX 기반으로 전환 — 로컬 LLM 추론 속도 대폭 향상

ai-ml 2026-03-31 약 5분

 tags

#ollama #mlx #apple-silicon #local-llm #inference

vote

북마크

Ollama가 Apple Silicon에서 MLX 프레임워크 기반으로 동작하는 프리뷰 버전을 공개했다. Qwen3.5-35B-A3B 모델 기준 prefill 1,851 tok/s, decode 134 tok/s를 달성했으며, NVFP4 포맷 지원과 캐싱 개선으로 코딩 에이전트 워크플로우가 크게 빨라졌다.

1
MLX 기반으로 Apple Silicon 유니파이드 메모리 아키텍처 활용
2
Ollama 0.19에서 prefill 1,851 tok/s, decode 134 tok/s 달성
3
NVFP4 포맷 지원으로 프로덕션 추론 환경과 결과 일관성 확보
4
캐시 재사용, 인텔리전트 체크포인트, 스마트 eviction으로 에이전트 워크플로우 최적화
5
메모리 32GB 이상 Mac에서 즉시 사용 가능

Ollama가 Apple Silicon에서 MLX(Apple 머신러닝 프레임워크) 기반으로 동작하는 프리뷰 버전(0.18)을 공개함
- Apple Silicon의 유니파이드 메모리 아키텍처를 직접 활용해서 추론 속도가 대폭 올라감
- M5, M5 Pro, M5 Max 칩에서는 새로운 GPU Neural Accelerator까지 활용해 TTFT(첫 토큰 생성 시간)와 초당 토큰 생성 속도 모두 개선
벤치마크가 꽤 인상적임 — Qwen3.5-35B-A3B 모델 기준
- NVFP4 양자화 + Ollama 0.18로 테스트 (기존에는 Q4_K_M 사용)
- 다음 버전인 Ollama 0.19에서는 int4로 돌렸을 때 prefill 1,851 tok/s, decode 134 tok/s까지 나온다고 함
- 로컬에서 35B급 모델을 이 정도 속도로 돌릴 수 있다는 게 핵심

❗중요

> 메모리 32GB 이상인 Mac이 필요함. 해당 조건만 맞으면 ollama run qwen3.5:35b-a3b-coding-nvfp4로 바로 사용 가능.

NVFP4(NVIDIA FP4 포맷)를 지원하면서 프로덕션 추론 환경과 동일한 결과를 로컬에서 재현할 수 있게 됨
- 클라우드 추론 서비스들이 NVFP4로 서빙하는 추세인데, 로컬에서도 같은 포맷으로 돌리면 결과 일관성이 올라감
- NVIDIA 모델 옵티마이저로 최적화된 모델도 돌릴 수 있는 길이 열림
캐싱도 대폭 개선됨 — 코딩/에이전트 워크플로우에 특히 유리
- 대화 간 캐시를 재사용해서 메모리 사용량을 줄이고, Claude Code 같은 도구에서 공유 시스템 프롬프트 쓸 때 캐시 히트율이 올라감
- 프롬프트의 적절한 위치에 캐시 스냅샷을 자동으로 저장해서 프롬프트 처리 시간 단축
- 공유 프리픽스를 더 오래 유지하는 스마트 eviction 정책 적용
사용법은 간단함 — Claude Code, OpenClaw 등과 바로 연동 가능
- ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 한 줄이면 Claude Code에서 사용 가능
- 현재는 Qwen3.5-35B-A3B 모델에 코딩 태스크용 샘플링 파라미터가 튜닝된 상태
- 추후 더 많은 모델과 아키텍처를 지원할 예정이며, 커스텀 파인튜닝 모델 임포트 기능도 준비 중

기술 맥락

Ollama가 Apple Silicon에서 기존 llama.cpp 기반 대신 MLX로 갈아탄 건, 유니파이드 메모리를 제대로 활용하기 위해서예요. llama.cpp는 범용적이지만 Apple의 메모리 아키텍처에 특화된 최적화가 부족했거든요. MLX는 Apple이 직접 만든 프레임워크라 GPU와 CPU 간 메모리 복사 없이 바로 텐서를 공유할 수 있어요.
NVFP4 포맷을 채택한 건 단순히 모델 크기를 줄이려는 게 아니에요. 클라우드 추론 서비스들이 NVFP4로 서빙하고 있으니까, 로컬에서 개발하고 테스트한 결과가 프로덕션과 동일하게 나오는 게 중요한 거예요. 양자화 포맷이 다르면 같은 모델이라도 출력이 미묘하게 달라질 수 있거든요.
캐싱 개선이 에이전트 워크플로우에서 특히 큰 차이를 만드는 이유가 있어요. Claude Code 같은 코딩 에이전트는 매 요청마다 긴 시스템 프롬프트를 보내는데, 이전에는 매번 처음부터 처리했다면 이제는 공유 프리픽스를 캐시해두고 재사용하는 거예요. 에이전트가 분기(branching)를 많이 하는 경우에도 공유 프리픽스가 오래 살아남도록 eviction 정책을 바꿨고요.
M5 칩에서 언급된 "GPU Neural Accelerator"는 기존 Neural Engine과는 다른 개념이에요. GPU 내부에 추론 가속 전용 유닛을 넣은 건데, 이를 통해 prefill과 decode 양쪽 모두에서 속도 이점을 얻을 수 있어요.

로컬 LLM 추론의 체감 속도가 Apple Silicon 최적화로 큰 도약을 했다. Mac으로 코딩 에이전트를 쓰는 개발자들에게 가장 직접적인 영향을 줄 업데이트.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

Ollama, Apple Silicon에서 MLX 기반으로 전환 — 로컬 LLM 추론 속도 대폭 향상

요약

핵심 포인트

분석

기술 맥락

인사이트

댓글

댓글

Ollama, Apple Silicon에서 MLX 기반으로 전환 — 로컬 LLM 추론 속도 대폭 향상

요약

핵심 포인트

분석

기술 맥락

인사이트

댓글

댓글

관련 기사