본문으로 건너뛰기
0
r/jeffnews HN 약 4분

Qwen 3.5 로컬 실행 가이드 — 모델별 하드웨어 요구사항부터 양자화 벤치마크까지

ai-ml

요약

알리바바 Qwen3.5 패밀리(0.8B~397B) 로컬 실행 가이드. Unsloth Dynamic 양자화로 397B 모델이 256GB Mac에서 구동되고, 4-bit 양자화에서 원본 대비 1포인트 미만 성능 하락.

기사 전체 정리

Qwen 3.5 로컬로 돌리는 방법 — 모델별 하드웨어 요구사항 + 양자화 벤치마크 총정리

  • 알리바바의 새 모델 패밀리 Qwen3.5가 나옴. 라인업이 꽤 넓음: 35B-A3B, 27B, 122B-A10B, 397B-A17B (MoE 모델들), 그리고 Small 시리즈 0.8B, 2B, 4B, 9B. 256K 컨텍스트, 201개 언어, thinking + non-thinking 모드 지원

모델별 하드웨어 요구사항

  • 35B-A3B: 22GB Mac/RAM에서 동작. 27B보다 약간 정확도가 낮지만 훨씬 빠른 추론 속도
  • 27B: 18GB Mac/RAM. 정확도 우선이면 이쪽
  • 122B-A10B: 70GB Mac/RAM. Dynamic 4-bit GGUF 사용
  • 397B-A17B: Gemini 3 Pro, Claude Opus 4.5, GPT-5.2급 성능. 풀 체크포인트가 ~807GB인데:
    • 3-bit: 192GB RAM (예: 192GB Mac)
    • 4-bit (MXFP4): 256GB RAM — Unsloth UD-Q4_K_XL이 ~214GB, 256GB M3 Ultra에 직접 로드 가능
    • 24GB GPU 1개 + 256GB 시스템 RAM으로 MoE 오프로딩하면 25+ tok/s 달성
    • 8-bit: ~512GB RAM/VRAM 필요
  • Small 시리즈(0.8B~9B): 12GB면 거의 풀 정밀도로 구동 가능

Unsloth 양자화 벤치마크

  • Unsloth가 day zero 접근 권한을 받아서 SOTA 양자화 퍼포먼스를 제공. 4-bit에서 중요한 레이어를 8-bit나 16-bit로 업캐스팅하는 Dynamic 양자화 방식

중요

> 397B-A17B 양자화 결과가 놀라움: 750개 프롬프트 혼합 벤치마크(LiveCodeBench v6, MMLU Pro, GPQA, Math500)에서 원본 81.3% → UD-Q4_K_XL 80.5%(−0.8p), UD-Q3_K_XL 80.7%(−0.6p). ~500GB 메모리를 절약하면서 1포인트도 안 떨어짐

  • Q3이 Q4보다 살짝 높게 나온 건 이 스케일에서의 정상적인 run-to-run 분산이라서 실질적으로 동급. 용량 최소화 → Q3, 보수적 선택 → Q4
  • 도구 호출(tool calling) 지원되고, llama-server로 OpenAI 호환 엔드포인트 띄워서 Claude Code나 OpenAI Codex에서 로컬 코딩 에이전트로 사용 가능

실행 방법

  • Unsloth Studio(웹 UI), llama.cpp, LM Studio 3가지 경로 제공
  • thinking 모드와 non-thinking 모드의 설정이 다름: thinking 모드에서는 temperature 0.6 + top_p 0.95, non-thinking에서는 temperature 0.7 + top_p 0.8 권장
  • 최대 컨텍스트 262,144 (YaRN으로 1M까지 확장 가능), 적정 출력 길이 32,768 토큰

핵심 포인트

  • 397B-A17B가 Gemini 3 Pro, Claude Opus 4.5, GPT-5.2급 성능
  • 24GB GPU + 256GB RAM으로 MoE 오프로딩 시 25+ tok/s
  • UD-Q4_K_XL: 원본 81.3% → 80.5%로 ~500GB 절약하면서 1포인트 미만 하락

인사이트

MoE 아키텍처 덕에 소비자 하드웨어에서도 최상위 성능 모델을 돌릴 수 있게 됨. 양자화 기술의 발전이 로컬 LLM의 실용성을 크게 높이고 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

ai-ml

구글 TurboQuant: AI 모델 압축의 판도를 바꾸는 기술 등장 (ICLR 2026)

구글 리서치가 AI 모델의 핵심 병목인 키-값 캐시(KV Cache) 문제를 해결하는 압축 알고리즘 TurboQuant를 공개했음. 학습 없이 KV 캐시를 3비트까지 줄이면서도 모델 정확도 손실 제로, H100 GPU에서 최대 8배 속도 향상이라는 미친 성능을 보여줌. PolarQuant, QJL과 함께 ICLR 2026에서 발표 예정.

ai-ml

Claude Code한테 내 옛날 연구 코드 맡겨봤는데 하루만에 54% 성능 향상시킴 ㄷㄷ

Karpathy의 Autoresearch 방법론에서 영감 받아서, 저자가 자기 옛날 연구 코드(eCLIP)를 Claude Code한테 던져주고 빨래/장보기 하러 갔음. 돌아왔더니 42번 실험 돌리고 Mean Rank를 344→157로 54% 줄여놨다는 레전드 썰. 근데 버그 하나 고친 게 모든 아키텍처 개선 합친 것보다 효과가 컸다는 게 포인트 ㅋㅋ

ai-ml

Claude Code 치트시트 레전드 정리본 떴다 - 이거 하나면 끝

Claude Code의 모든 슬래시 커맨드, 단축키, 고급 기능을 한 페이지에 때려박은 치트시트임. /btw 같은 숨겨진 꿀기능부터 Git Worktree, Voice Mode까지 ㄹㅇ 알차게 담겨있어서 북마크 필수각.

ai-ml

딥러닝용 미친 사양 컴퓨터 'Tinybox' - 최대 1 엑사플롭 지원에 가격은 100억?

tinygrad 팀이 만든 딥러닝 전용 컴퓨터 'Tinybox'가 이제 실제로 판매 중임. red($12,000)부터 green($65,000), 그리고 2027년 출시 예정인 초고사양 'exabox'(~$10M)까지 라인업 구성. 근데 exabox 스펙이 진짜 레전드 수준ㅋㅋ