---
title: "Ollama, Apple Silicon에서 MLX 기반으로 전환 — 로컬 LLM 추론 속도 대폭 향상"
published: 2026-03-31T03:40:45.000Z
canonical: https://jeff.news/article/1426
---
# Ollama, Apple Silicon에서 MLX 기반으로 전환 — 로컬 LLM 추론 속도 대폭 향상

Ollama가 Apple Silicon에서 MLX 프레임워크 기반으로 동작하는 프리뷰 버전을 공개했다. Qwen3.5-35B-A3B 모델 기준 prefill 1,851 tok/s, decode 134 tok/s를 달성했으며, NVFP4 포맷 지원과 캐싱 개선으로 코딩 에이전트 워크플로우가 크게 빨라졌다.

- Ollama가 Apple Silicon에서 MLX(Apple 머신러닝 프레임워크) 기반으로 동작하는 프리뷰 버전(0.18)을 공개함
  - Apple Silicon의 유니파이드 메모리 아키텍처를 직접 활용해서 추론 속도가 대폭 올라감
  - M5, M5 Pro, M5 Max 칩에서는 새로운 GPU Neural Accelerator까지 활용해 TTFT(첫 토큰 생성 시간)와 초당 토큰 생성 속도 모두 개선

- 벤치마크가 꽤 인상적임 — Qwen3.5-35B-A3B 모델 기준
  - NVFP4 양자화 + Ollama 0.18로 테스트 (기존에는 Q4_K_M 사용)
  - 다음 버전인 Ollama 0.19에서는 `int4`로 돌렸을 때 prefill 1,851 tok/s, decode 134 tok/s까지 나온다고 함
  - 로컬에서 35B급 모델을 이 정도 속도로 돌릴 수 있다는 게 핵심

> [!IMPORTANT]
> 메모리 32GB 이상인 Mac이 필요함. 해당 조건만 맞으면 `ollama run qwen3.5:35b-a3b-coding-nvfp4`로 바로 사용 가능.

- NVFP4(NVIDIA FP4 포맷)를 지원하면서 프로덕션 추론 환경과 동일한 결과를 로컬에서 재현할 수 있게 됨
  - 클라우드 추론 서비스들이 NVFP4로 서빙하는 추세인데, 로컬에서도 같은 포맷으로 돌리면 결과 일관성이 올라감
  - NVIDIA 모델 옵티마이저로 최적화된 모델도 돌릴 수 있는 길이 열림

- 캐싱도 대폭 개선됨 — 코딩/에이전트 워크플로우에 특히 유리
  - 대화 간 캐시를 재사용해서 메모리 사용량을 줄이고, Claude Code 같은 도구에서 공유 시스템 프롬프트 쓸 때 캐시 히트율이 올라감
  - 프롬프트의 적절한 위치에 캐시 스냅샷을 자동으로 저장해서 프롬프트 처리 시간 단축
  - 공유 프리픽스를 더 오래 유지하는 스마트 eviction 정책 적용

- 사용법은 간단함 — Claude Code, OpenClaw 등과 바로 연동 가능
  - `ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4` 한 줄이면 Claude Code에서 사용 가능
  - 현재는 Qwen3.5-35B-A3B 모델에 코딩 태스크용 샘플링 파라미터가 튜닝된 상태
  - 추후 더 많은 모델과 아키텍처를 지원할 예정이며, 커스텀 파인튜닝 모델 임포트 기능도 준비 중

---

## 기술 맥락

- Ollama가 Apple Silicon에서 기존 llama.cpp 기반 대신 MLX로 갈아탄 건, 유니파이드 메모리를 제대로 활용하기 위해서예요. llama.cpp는 범용적이지만 Apple의 메모리 아키텍처에 특화된 최적화가 부족했거든요. MLX는 Apple이 직접 만든 프레임워크라 GPU와 CPU 간 메모리 복사 없이 바로 텐서를 공유할 수 있어요.

- NVFP4 포맷을 채택한 건 단순히 모델 크기를 줄이려는 게 아니에요. 클라우드 추론 서비스들이 NVFP4로 서빙하고 있으니까, 로컬에서 개발하고 테스트한 결과가 프로덕션과 동일하게 나오는 게 중요한 거예요. 양자화 포맷이 다르면 같은 모델이라도 출력이 미묘하게 달라질 수 있거든요.

- 캐싱 개선이 에이전트 워크플로우에서 특히 큰 차이를 만드는 이유가 있어요. Claude Code 같은 코딩 에이전트는 매 요청마다 긴 시스템 프롬프트를 보내는데, 이전에는 매번 처음부터 처리했다면 이제는 공유 프리픽스를 캐시해두고 재사용하는 거예요. 에이전트가 분기(branching)를 많이 하는 경우에도 공유 프리픽스가 오래 살아남도록 eviction 정책을 바꿨고요.

- M5 칩에서 언급된 "GPU Neural Accelerator"는 기존 Neural Engine과는 다른 개념이에요. GPU 내부에 추론 가속 전용 유닛을 넣은 건데, 이를 통해 prefill과 decode 양쪽 모두에서 속도 이점을 얻을 수 있어요.

## 핵심 포인트

- MLX 기반으로 Apple Silicon 유니파이드 메모리 아키텍처 활용
- Ollama 0.19에서 prefill 1,851 tok/s, decode 134 tok/s 달성
- NVFP4 포맷 지원으로 프로덕션 추론 환경과 결과 일관성 확보
- 캐시 재사용, 인텔리전트 체크포인트, 스마트 eviction으로 에이전트 워크플로우 최적화
- 메모리 32GB 이상 Mac에서 즉시 사용 가능

## 인사이트

로컬 LLM 추론의 체감 속도가 Apple Silicon 최적화로 큰 도약을 했다. Mac으로 코딩 에이전트를 쓰는 개발자들에게 가장 직접적인 영향을 줄 업데이트.
