---
title: "GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법"
published: 2026-06-22T21:21:01.000Z
canonical: https://jeff.news/article/4266
---
# GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법

Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.

- Z.ai의 새 오픈 모델 GLM-5.2를 로컬에서 돌리는 가이드가 나옴. 포인트는 ‘744B 모델도 양자화하면 개인/사내 장비에서 어느 정도 만질 수 있다’는 쪽임
  - 전체 파라미터는 744B, 실제 활성 파라미터는 40B인 MoE 계열 모델로 소개됨
  - 컨텍스트 윈도우는 최대 1,048,576토큰, 그러니까 100만 토큰급 장문 컨텍스트를 겨냥함
  - Unsloth는 GLM-5.2가 장기 코딩, 추론, 에이전트 작업에서 Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro와 비슷한 급이라고 주장함

- 핵심은 Unsloth Dynamic GGUF 양자화임. 원본 1.5TB급 모델을 여러 비트폭으로 줄여서 배포함
  - 2비트 Dynamic UD-IQ2_M은 디스크 기준 239GB를 사용함
  - 이 2비트 모델은 256GB 통합 메모리 Mac에 들어가고, 24GB GPU 1장과 256GB RAM 조합에서도 MoE 오프로딩으로 돌릴 수 있다고 함
  - 1비트 모델은 총 메모리 223GB, 2비트는 245GB, 3비트는 290~360GB, 4비트는 372~475GB, 5비트는 570GB, 8비트는 810GB가 필요하다고 정리됨

> [!IMPORTANT]
> 여기서 ‘로컬 실행 가능’은 일반 노트북에서 가볍게 돈다는 뜻이 아님. 2비트만 해도 239GB 파일이고, 권장 총 메모리는 245GB 이상임.

- 성능 손실 해석이 꽤 중요함. 1비트가 86% 작아졌다고 모델이 86% 멍청해지는 건 아니라는 얘기임
  - Dynamic 1-bit는 약 76.2% top-1 정확도를 내면서 크기는 86% 줄었다고 함
  - Dynamic 2-bit는 약 82% top-1 정확도를 내면서 크기는 84% 줄었다고 함
  - Unsloth 설명에 따르면 1비트 모델은 원본 1.5TB 모델보다 약 24% 덜 맞는 top-1 선택을 하지만, 이게 ‘정답을 24% 틀린다’는 뜻은 아님

- top-1 정확도는 모델이 가장 높은 확률로 고른 토큰이 원본 모델과 얼마나 일치하는지 보는 지표에 가까움
  - 예를 들어 “프랑스의 수도는?” 같은 질문에서 Paris가 76%, Sydney가 24%로 튄다는 뜻이 아님
  - “소설을 써줘” 같은 프롬프트에서 원본은 “I”로 시작하고, 양자화 모델은 “The”나 “What”처럼 다른 자연스러운 시작 토큰을 고를 수 있다는 식의 차이에 가까움
  - 즉 76.2%라는 숫자는 헛소리율이 아니라, 원본 모델의 argmax 토큰과 얼마나 자주 같은 선택을 하느냐를 강제로 재는 값임

- Unsloth는 KLD(KL Divergence)도 같이 봤다고 함. 이건 원본 모델과 양자화 모델의 출력 확률 분포가 얼마나 다른지 보는 지표임
  - 목표는 원본 모델 f(W)와 양자화 모델 f(q(W))의 로짓 분포 차이를 최소화하는 것
  - 전체 학습 코퍼스 15T 토큰 같은 걸 전부 돌리는 건 비싸니, 대표 샘플을 뽑아 평균 KLD를 보는 방식이라고 설명함
  - Dynamic 4-bit UD-Q4_K_XL과 Dynamic 5-bit UD-Q5_K_XL은 대부분 손실이 거의 없는 수준으로 소개됨

- 실행 경로는 크게 두 가지임. 편하게 UI로 가면 Unsloth Studio, 직접 만지려면 llama.cpp
  - Unsloth Studio는 로컬 AI용 오픈소스 웹 UI이고, RAM 오프로딩과 멀티 GPU 감지를 자동으로 해준다고 함
  - 첫 실행 시 계정 보호용 비밀번호를 만들고, Chat 탭에서 GLM-5.2를 검색해 원하는 quant를 내려받는 흐름임
  - llama.cpp 쪽은 최신 빌드를 받아 CUDA 여부에 맞게 빌드하고, GGUF 파일을 직접 내려받아 llama-cli로 실행하는 방식임

- GLM-5.2는 기본적으로 reasoning이 켜져 있고, thinking 모드를 조절할 수 있음
  - 모드는 non-thinking, Thinking High, Thinking Max로 나뉨
  - 복잡한 작업에는 Max Thinking을 쓰라고 권장함
  - thinking을 끄려면 `--chat-template-kwargs '{"enable_thinking":false}'` 같은 옵션을 쓰거나, llama.cpp의 `--reasoning on/off`를 사용할 수 있음

- 추천 샘플링 설정은 꽤 단순함
  - 일반 작업은 temperature 1.0, top_p 0.95
  - SWE-Bench Pro 같은 코딩 벤치마크 쪽은 temperature 1.0, top_p 1.0을 제시함
  - 최대 컨텍스트 윈도우는 1,048,576토큰으로 잡혀 있음

- 긴 컨텍스트를 진짜로 쓰려면 KV 캐시 양자화가 관건임
  - 기본 KV 캐시는 f16을 쓰는데, 이러면 긴 컨텍스트에서 메모리가 빠르게 커짐
  - q4_0은 가중치당 약 4.5비트라서 이론상 16 / 4.5, 즉 약 3.5배 더 긴 컨텍스트를 노릴 수 있음
  - q4_1은 약 5비트라서 확장폭은 약 3.2배지만 shifting parameter가 있어 더 나은 선택지로 언급됨

> [!TIP]
> 256GB급 메모리 장비라면 2비트 UD-IQ2_M이 접근성과 정확도 사이의 현실적인 시작점으로 제시됨. 더 안정적인 품질이 필요하면 4비트 이상으로 올라가야 하지만, 그 순간 메모리 요구량도 확 뛰어오름.

- 실제 예시로는 1비트 GLM-5.2에 짧은 Flappy Bird 게임을 만들게 했고, 소리까지 포함된 HTML 게임이 잘 동작했다고 함
  - 이건 1비트 양자화가 단순 질의응답만 하는 장난감 수준은 아니라는 데모에 가까움
  - 다만 원문 자체가 제품 문서와 튜토리얼 성격이라, 독립 벤치마크보다는 Unsloth가 제시한 수치와 설명이라는 점은 감안해야 함

---

## 기술 맥락

- 여기서 가장 큰 선택은 ‘744B급 모델을 원본 정밀도로 돌릴 것인가, Dynamic GGUF 양자화로 줄여서 돌릴 것인가’예요. 원본이 1.5TB급이면 로컬 추론은 장비부터 막히거든요. 그래서 1비트·2비트까지 과감하게 줄이고, 중요한 레이어는 더 높은 정밀도로 남기는 방식이 나온 거예요.

- 2비트 UD-IQ2_M이 강조되는 이유는 숫자가 현실적인 경계선에 걸쳐 있어서예요. 239GB 파일이면 여전히 무겁지만, 256GB 통합 메모리 Mac이나 24GB GPU+256GB RAM 워크스테이션에서는 실험 가능한 범위에 들어오거든요. ‘오픈 모델 로컬 실행’이 취미 장난감에서 사내 장비 검토 항목으로 넘어가는 지점이에요.

- top-1 정확도와 KLD를 같이 보는 것도 중요한 포인트예요. 양자화 모델이 원본과 토큰 선택을 100% 똑같이 하지 않아도, 실제 출력 품질이 바로 같은 비율로 망가지지는 않거든요. 그래서 Unsloth는 ‘76.2% top-1’ 같은 숫자를 헛소리율이 아니라 원본 분포와의 거리로 해석하라고 설명해요.

- 긴 컨텍스트에서는 모델 파일 크기만 줄인다고 끝이 아니에요. 대화가 길어질수록 KV 캐시가 메모리를 계속 잡아먹기 때문에, llama.cpp의 KV 캐시 양자화가 같이 필요해요. q4_0이나 q4_1을 쓰면 같은 메모리에서 더 긴 문맥을 버틸 수 있어서 100만 토큰 컨텍스트라는 스펙을 조금이라도 현실 쪽으로 끌고 와요.

## 핵심 포인트

- GLM-5.2는 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 오픈 모델로 소개됨
- 2비트 Dynamic GGUF는 239GB 디스크 공간을 쓰며 256GB 통합 메모리 Mac 또는 24GB GPU+256GB RAM 구성에서 실행 가능
- 1비트 양자화는 약 76.2% top-1 정확도와 86% 크기 절감을, 2비트는 약 82% 정확도와 84% 크기 절감을 기록
- llama.cpp와 Unsloth Studio에서 실행 가능하며, 긴 컨텍스트에는 KV 캐시 양자화가 중요함

## 인사이트

이제 ‘오픈 초거대 모델을 로컬에서 돌린다’가 말장난이 아니라 RAM 계산 문제에 가까워지고 있음. 다만 239GB짜리 2비트 모델도 일반 개발자 노트북 범위는 아니어서, 개인 실험보다는 사내 워크스테이션·온프레미스 AI 인프라 쪽에서 더 현실적인 얘기다.
