0
Qwen 3.5 로컬 실행 가이드 — 모델별 하드웨어 요구사항부터 양자화 벤치마크까지
ai-ml
요약
기사 전체 정리
Qwen 3.5 로컬로 돌리는 방법 — 모델별 하드웨어 요구사항 + 양자화 벤치마크 총정리
- 알리바바의 새 모델 패밀리 Qwen3.5가 나옴. 라인업이 꽤 넓음: 35B-A3B, 27B, 122B-A10B, 397B-A17B (MoE 모델들), 그리고 Small 시리즈 0.8B, 2B, 4B, 9B. 256K 컨텍스트, 201개 언어, thinking + non-thinking 모드 지원
모델별 하드웨어 요구사항
- 35B-A3B: 22GB Mac/RAM에서 동작. 27B보다 약간 정확도가 낮지만 훨씬 빠른 추론 속도
- 27B: 18GB Mac/RAM. 정확도 우선이면 이쪽
- 122B-A10B: 70GB Mac/RAM. Dynamic 4-bit GGUF 사용
- 397B-A17B: Gemini 3 Pro, Claude Opus 4.5, GPT-5.2급 성능. 풀 체크포인트가 ~807GB인데:
- 3-bit: 192GB RAM (예: 192GB Mac)
- 4-bit (MXFP4): 256GB RAM — Unsloth UD-Q4_K_XL이 ~214GB, 256GB M3 Ultra에 직접 로드 가능
- 24GB GPU 1개 + 256GB 시스템 RAM으로 MoE 오프로딩하면 25+ tok/s 달성
- 8-bit: ~512GB RAM/VRAM 필요
- Small 시리즈(0.8B~9B): 12GB면 거의 풀 정밀도로 구동 가능
Unsloth 양자화 벤치마크
- Unsloth가 day zero 접근 권한을 받아서 SOTA 양자화 퍼포먼스를 제공. 4-bit에서 중요한 레이어를 8-bit나 16-bit로 업캐스팅하는 Dynamic 양자화 방식
중요
> 397B-A17B 양자화 결과가 놀라움: 750개 프롬프트 혼합 벤치마크(LiveCodeBench v6, MMLU Pro, GPQA, Math500)에서 원본 81.3% → UD-Q4_K_XL 80.5%(−0.8p), UD-Q3_K_XL 80.7%(−0.6p). ~500GB 메모리를 절약하면서 1포인트도 안 떨어짐
- Q3이 Q4보다 살짝 높게 나온 건 이 스케일에서의 정상적인 run-to-run 분산이라서 실질적으로 동급. 용량 최소화 → Q3, 보수적 선택 → Q4
- 도구 호출(tool calling) 지원되고, llama-server로 OpenAI 호환 엔드포인트 띄워서 Claude Code나 OpenAI Codex에서 로컬 코딩 에이전트로 사용 가능
실행 방법
- Unsloth Studio(웹 UI), llama.cpp, LM Studio 3가지 경로 제공
- thinking 모드와 non-thinking 모드의 설정이 다름: thinking 모드에서는 temperature 0.6 + top_p 0.95, non-thinking에서는 temperature 0.7 + top_p 0.8 권장
- 최대 컨텍스트 262,144 (YaRN으로 1M까지 확장 가능), 적정 출력 길이 32,768 토큰
댓글
댓글
댓글을 불러오는 중...