---
title: "Qwen 3.5 로컬 실행 가이드 — 모델별 하드웨어 요구사항부터 양자화 벤치마크까지"
published: 2026-03-07T23:32:17.000Z
canonical: https://jeff.news/article/282
---
# Qwen 3.5 로컬 실행 가이드 — 모델별 하드웨어 요구사항부터 양자화 벤치마크까지

알리바바 Qwen3.5 패밀리(0.8B~397B) 로컬 실행 가이드. Unsloth Dynamic 양자화로 397B 모델이 256GB Mac에서 구동되고, 4-bit 양자화에서 원본 대비 1포인트 미만 성능 하락.

## Qwen 3.5 로컬로 돌리는 방법 — 모델별 하드웨어 요구사항 + 양자화 벤치마크 총정리

- 알리바바의 새 모델 패밀리 Qwen3.5가 나옴. 라인업이 꽤 넓음: **35B-A3B**, **27B**, **122B-A10B**, **397B-A17B** (MoE 모델들), 그리고 Small 시리즈 **0.8B, 2B, 4B, 9B**. 256K 컨텍스트, 201개 언어, thinking + non-thinking 모드 지원

## 모델별 하드웨어 요구사항

- **35B-A3B**: 22GB Mac/RAM에서 동작. 27B보다 약간 정확도가 낮지만 훨씬 빠른 추론 속도
- **27B**: 18GB Mac/RAM. 정확도 우선이면 이쪽
- **122B-A10B**: 70GB Mac/RAM. Dynamic 4-bit GGUF 사용
- **397B-A17B**: Gemini 3 Pro, Claude Opus 4.5, GPT-5.2급 성능. 풀 체크포인트가 ~807GB인데:
  - 3-bit: 192GB RAM (예: 192GB Mac)
  - 4-bit (MXFP4): 256GB RAM — Unsloth UD-Q4_K_XL이 ~214GB, 256GB M3 Ultra에 직접 로드 가능
  - **24GB GPU 1개 + 256GB 시스템 RAM으로 MoE 오프로딩하면 25+ tok/s** 달성
  - 8-bit: ~512GB RAM/VRAM 필요
- Small 시리즈(0.8B~9B): 12GB면 거의 풀 정밀도로 구동 가능

## Unsloth 양자화 벤치마크

- Unsloth가 day zero 접근 권한을 받아서 SOTA 양자화 퍼포먼스를 제공. 4-bit에서 중요한 레이어를 8-bit나 16-bit로 업캐스팅하는 Dynamic 양자화 방식

> [!IMPORTANT]
> **397B-A17B 양자화 결과가 놀라움**: 750개 프롬프트 혼합 벤치마크(LiveCodeBench v6, MMLU Pro, GPQA, Math500)에서 원본 81.3% → UD-Q4_K_XL 80.5%(−0.8p), UD-Q3_K_XL 80.7%(−0.6p). ~500GB 메모리를 절약하면서 1포인트도 안 떨어짐

- Q3이 Q4보다 살짝 높게 나온 건 이 스케일에서의 정상적인 run-to-run 분산이라서 실질적으로 동급. 용량 최소화 → Q3, 보수적 선택 → Q4
- 도구 호출(tool calling) 지원되고, llama-server로 OpenAI 호환 엔드포인트 띄워서 Claude Code나 OpenAI Codex에서 로컬 코딩 에이전트로 사용 가능

## 실행 방법

- Unsloth Studio(웹 UI), llama.cpp, LM Studio 3가지 경로 제공
- thinking 모드와 non-thinking 모드의 설정이 다름: thinking 모드에서는 temperature 0.6 + top_p 0.95, non-thinking에서는 temperature 0.7 + top_p 0.8 권장
- 최대 컨텍스트 262,144 (YaRN으로 1M까지 확장 가능), 적정 출력 길이 32,768 토큰

## 핵심 포인트

- 397B-A17B가 Gemini 3 Pro, Claude Opus 4.5, GPT-5.2급 성능
- 24GB GPU + 256GB RAM으로 MoE 오프로딩 시 25+ tok/s
- UD-Q4_K_XL: 원본 81.3% → 80.5%로 ~500GB 절약하면서 1포인트 미만 하락

## 인사이트

MoE 아키텍처 덕에 소비자 하드웨어에서도 최상위 성능 모델을 돌릴 수 있게 됨. 양자화 기술의 발전이 로컬 LLM의 실용성을 크게 높이고 있음.
