본문으로 건너뛰기
피드

GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법

ai-ml 약 9분
vote
0
댓글
북마크

Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.

  • 1

    GLM-5.2는 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 오픈 모델로 소개됨

  • 2

    2비트 Dynamic GGUF는 239GB 디스크 공간을 쓰며 256GB 통합 메모리 Mac 또는 24GB GPU+256GB RAM 구성에서 실행 가능

  • 3

    1비트 양자화는 약 76.2% top-1 정확도와 86% 크기 절감을, 2비트는 약 82% 정확도와 84% 크기 절감을 기록

  • 4

    llama.cpp와 Unsloth Studio에서 실행 가능하며, 긴 컨텍스트에는 KV 캐시 양자화가 중요함

  • Z.ai의 새 오픈 모델 GLM-5.2를 로컬에서 돌리는 가이드가 나옴. 포인트는 ‘744B 모델도 양자화하면 개인/사내 장비에서 어느 정도 만질 수 있다’는 쪽임

    • 전체 파라미터는 744B, 실제 활성 파라미터는 40B인 MoE 계열 모델로 소개됨
    • 컨텍스트 윈도우는 최대 1,048,576토큰, 그러니까 100만 토큰급 장문 컨텍스트를 겨냥함
    • Unsloth는 GLM-5.2가 장기 코딩, 추론, 에이전트 작업에서 Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro와 비슷한 급이라고 주장함
  • 핵심은 Unsloth Dynamic GGUF 양자화임. 원본 1.5TB급 모델을 여러 비트폭으로 줄여서 배포함

    • 2비트 Dynamic UD-IQ2_M은 디스크 기준 239GB를 사용함
    • 이 2비트 모델은 256GB 통합 메모리 Mac에 들어가고, 24GB GPU 1장과 256GB RAM 조합에서도 MoE 오프로딩으로 돌릴 수 있다고 함
    • 1비트 모델은 총 메모리 223GB, 2비트는 245GB, 3비트는 290360GB, 4비트는 372475GB, 5비트는 570GB, 8비트는 810GB가 필요하다고 정리됨

중요

> 여기서 ‘로컬 실행 가능’은 일반 노트북에서 가볍게 돈다는 뜻이 아님. 2비트만 해도 239GB 파일이고, 권장 총 메모리는 245GB 이상임.

  • 성능 손실 해석이 꽤 중요함. 1비트가 86% 작아졌다고 모델이 86% 멍청해지는 건 아니라는 얘기임

    • Dynamic 1-bit는 약 76.2% top-1 정확도를 내면서 크기는 86% 줄었다고 함
    • Dynamic 2-bit는 약 82% top-1 정확도를 내면서 크기는 84% 줄었다고 함
    • Unsloth 설명에 따르면 1비트 모델은 원본 1.5TB 모델보다 약 24% 덜 맞는 top-1 선택을 하지만, 이게 ‘정답을 24% 틀린다’는 뜻은 아님
  • top-1 정확도는 모델이 가장 높은 확률로 고른 토큰이 원본 모델과 얼마나 일치하는지 보는 지표에 가까움

    • 예를 들어 “프랑스의 수도는?” 같은 질문에서 Paris가 76%, Sydney가 24%로 튄다는 뜻이 아님
    • “소설을 써줘” 같은 프롬프트에서 원본은 “I”로 시작하고, 양자화 모델은 “The”나 “What”처럼 다른 자연스러운 시작 토큰을 고를 수 있다는 식의 차이에 가까움
    • 즉 76.2%라는 숫자는 헛소리율이 아니라, 원본 모델의 argmax 토큰과 얼마나 자주 같은 선택을 하느냐를 강제로 재는 값임
  • Unsloth는 KLD(KL Divergence)도 같이 봤다고 함. 이건 원본 모델과 양자화 모델의 출력 확률 분포가 얼마나 다른지 보는 지표임

    • 목표는 원본 모델 f(W)와 양자화 모델 f(q(W))의 로짓 분포 차이를 최소화하는 것
    • 전체 학습 코퍼스 15T 토큰 같은 걸 전부 돌리는 건 비싸니, 대표 샘플을 뽑아 평균 KLD를 보는 방식이라고 설명함
    • Dynamic 4-bit UD-Q4_K_XL과 Dynamic 5-bit UD-Q5_K_XL은 대부분 손실이 거의 없는 수준으로 소개됨
  • 실행 경로는 크게 두 가지임. 편하게 UI로 가면 Unsloth Studio, 직접 만지려면 llama.cpp

    • Unsloth Studio는 로컬 AI용 오픈소스 웹 UI이고, RAM 오프로딩과 멀티 GPU 감지를 자동으로 해준다고 함
    • 첫 실행 시 계정 보호용 비밀번호를 만들고, Chat 탭에서 GLM-5.2를 검색해 원하는 quant를 내려받는 흐름임
    • llama.cpp 쪽은 최신 빌드를 받아 CUDA 여부에 맞게 빌드하고, GGUF 파일을 직접 내려받아 llama-cli로 실행하는 방식임
  • GLM-5.2는 기본적으로 reasoning이 켜져 있고, thinking 모드를 조절할 수 있음

    • 모드는 non-thinking, Thinking High, Thinking Max로 나뉨
    • 복잡한 작업에는 Max Thinking을 쓰라고 권장함
    • thinking을 끄려면 --chat-template-kwargs '{"enable_thinking":false}' 같은 옵션을 쓰거나, llama.cpp의 --reasoning on/off를 사용할 수 있음
  • 추천 샘플링 설정은 꽤 단순함

    • 일반 작업은 temperature 1.0, top_p 0.95
    • SWE-Bench Pro 같은 코딩 벤치마크 쪽은 temperature 1.0, top_p 1.0을 제시함
    • 최대 컨텍스트 윈도우는 1,048,576토큰으로 잡혀 있음
  • 긴 컨텍스트를 진짜로 쓰려면 KV 캐시 양자화가 관건임

    • 기본 KV 캐시는 f16을 쓰는데, 이러면 긴 컨텍스트에서 메모리가 빠르게 커짐
    • q4_0은 가중치당 약 4.5비트라서 이론상 16 / 4.5, 즉 약 3.5배 더 긴 컨텍스트를 노릴 수 있음
    • q4_1은 약 5비트라서 확장폭은 약 3.2배지만 shifting parameter가 있어 더 나은 선택지로 언급됨

💡

> 256GB급 메모리 장비라면 2비트 UD-IQ2_M이 접근성과 정확도 사이의 현실적인 시작점으로 제시됨. 더 안정적인 품질이 필요하면 4비트 이상으로 올라가야 하지만, 그 순간 메모리 요구량도 확 뛰어오름.

  • 실제 예시로는 1비트 GLM-5.2에 짧은 Flappy Bird 게임을 만들게 했고, 소리까지 포함된 HTML 게임이 잘 동작했다고 함
    • 이건 1비트 양자화가 단순 질의응답만 하는 장난감 수준은 아니라는 데모에 가까움
    • 다만 원문 자체가 제품 문서와 튜토리얼 성격이라, 독립 벤치마크보다는 Unsloth가 제시한 수치와 설명이라는 점은 감안해야 함

기술 맥락

  • 여기서 가장 큰 선택은 ‘744B급 모델을 원본 정밀도로 돌릴 것인가, Dynamic GGUF 양자화로 줄여서 돌릴 것인가’예요. 원본이 1.5TB급이면 로컬 추론은 장비부터 막히거든요. 그래서 1비트·2비트까지 과감하게 줄이고, 중요한 레이어는 더 높은 정밀도로 남기는 방식이 나온 거예요.

  • 2비트 UD-IQ2_M이 강조되는 이유는 숫자가 현실적인 경계선에 걸쳐 있어서예요. 239GB 파일이면 여전히 무겁지만, 256GB 통합 메모리 Mac이나 24GB GPU+256GB RAM 워크스테이션에서는 실험 가능한 범위에 들어오거든요. ‘오픈 모델 로컬 실행’이 취미 장난감에서 사내 장비 검토 항목으로 넘어가는 지점이에요.

  • top-1 정확도와 KLD를 같이 보는 것도 중요한 포인트예요. 양자화 모델이 원본과 토큰 선택을 100% 똑같이 하지 않아도, 실제 출력 품질이 바로 같은 비율로 망가지지는 않거든요. 그래서 Unsloth는 ‘76.2% top-1’ 같은 숫자를 헛소리율이 아니라 원본 분포와의 거리로 해석하라고 설명해요.

  • 긴 컨텍스트에서는 모델 파일 크기만 줄인다고 끝이 아니에요. 대화가 길어질수록 KV 캐시가 메모리를 계속 잡아먹기 때문에, llama.cpp의 KV 캐시 양자화가 같이 필요해요. q4_0이나 q4_1을 쓰면 같은 메모리에서 더 긴 문맥을 버틸 수 있어서 100만 토큰 컨텍스트라는 스펙을 조금이라도 현실 쪽으로 끌고 와요.

이제 ‘오픈 초거대 모델을 로컬에서 돌린다’가 말장난이 아니라 RAM 계산 문제에 가까워지고 있음. 다만 239GB짜리 2비트 모델도 일반 개발자 노트북 범위는 아니어서, 개인 실험보다는 사내 워크스테이션·온프레미스 AI 인프라 쪽에서 더 현실적인 얘기다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

삼성SDS, 공공 AI 박람회서 패브릭스·브리티웍스·AI 데이터센터 전면 배치

삼성SDS가 2026 공공 AI 박람회에서 공공 행정용 AI 에이전트, 모바일 협업 솔루션, AI 클라우드 인프라를 함께 선보였다. 국민 민원 요약·분류, 조달법령 해석, 정부24 AI 검색 같은 사례를 통해 공공 부문 AI 전환 시장을 정조준했다.

ai-ml

카페24는 120개 모델 라우터, 델은 랙당 GPU 144개 서버…국내 AI 인프라 뉴스 몰아보기

카페24가 120여 개 AI 모델을 단일 API로 묶는 LLM 라우터를 내놨고, 델은 엔비디아 베라 루빈 NVL4 기반 슈퍼컴 서버 XE8812를 공개했다. 오픈AI의 기업용 AI는 삼성전자와 서울대 도입 사례로 국내 확산 흐름이 뚜렷해졌고, 신세계I&C는 게임 IP 콘솔 패키지 출시를 예고했다.

ai-ml

브릭섬, 1MW급 NPU 추론 클라우드 ‘네오클라우드’ 하반기 오픈 추진

브릭섬이 NPU 기반 LLM 추론 전용 클라우드 ‘네오클라우드’를 올해 하반기 공식 오픈하겠다고 밝혔다. 1MW 규모로 시작해 6MW, 20MW까지 키우고, 토큰 API와 베어메탈 임대 두 가지 방식으로 제공한다.

ai-ml

스페이스X, 리플렉션 AI에 9.7조원 규모 AI 연산 자원 판다

스페이스X가 오픈소스 AI 스타트업 리플렉션 AI와 최대 63억달러 규모의 GPU 연산 계약을 맺었다. 리플렉션 AI는 2026년 7월부터 2029년까지 매달 1억5000만달러를 내고 엔비디아 GB300 기반 연산 자원을 쓰게 된다. AI 경쟁에서 모델만큼이나 GPU 접근권과 데이터센터 인프라가 전략 자산이 됐다는 신호다.

ai-ml

스페이스X, 오픈소스 AI 스타트업에 최대 63억달러 규모 컴퓨팅 파워 제공

스페이스X가 오픈소스 AI 스타트업 리플렉션 AI와 대규모 컴퓨팅 파워 공급 계약을 맺었다는 보도다. 리플렉션 AI는 엔비디아 GB300 기반 인프라를 확보하기 위해 2029년까지 최대 63억달러 규모로 스페이스X의 콜로서스를 이용할 예정이다.