GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법
Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.
- 1
GLM-5.2는 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 오픈 모델로 소개됨
- 2
2비트 Dynamic GGUF는 239GB 디스크 공간을 쓰며 256GB 통합 메모리 Mac 또는 24GB GPU+256GB RAM 구성에서 실행 가능
- 3
1비트 양자화는 약 76.2% top-1 정확도와 86% 크기 절감을, 2비트는 약 82% 정확도와 84% 크기 절감을 기록
- 4
llama.cpp와 Unsloth Studio에서 실행 가능하며, 긴 컨텍스트에는 KV 캐시 양자화가 중요함
이제 ‘오픈 초거대 모델을 로컬에서 돌린다’가 말장난이 아니라 RAM 계산 문제에 가까워지고 있음. 다만 239GB짜리 2비트 모델도 일반 개발자 노트북 범위는 아니어서, 개인 실험보다는 사내 워크스테이션·온프레미스 AI 인프라 쪽에서 더 현실적인 얘기다.
관련 기사
삼성SDS, 공공 AI 박람회서 패브릭스·브리티웍스·AI 데이터센터 전면 배치
삼성SDS가 2026 공공 AI 박람회에서 공공 행정용 AI 에이전트, 모바일 협업 솔루션, AI 클라우드 인프라를 함께 선보였다. 국민 민원 요약·분류, 조달법령 해석, 정부24 AI 검색 같은 사례를 통해 공공 부문 AI 전환 시장을 정조준했다.
카페24는 120개 모델 라우터, 델은 랙당 GPU 144개 서버…국내 AI 인프라 뉴스 몰아보기
카페24가 120여 개 AI 모델을 단일 API로 묶는 LLM 라우터를 내놨고, 델은 엔비디아 베라 루빈 NVL4 기반 슈퍼컴 서버 XE8812를 공개했다. 오픈AI의 기업용 AI는 삼성전자와 서울대 도입 사례로 국내 확산 흐름이 뚜렷해졌고, 신세계I&C는 게임 IP 콘솔 패키지 출시를 예고했다.
브릭섬, 1MW급 NPU 추론 클라우드 ‘네오클라우드’ 하반기 오픈 추진
브릭섬이 NPU 기반 LLM 추론 전용 클라우드 ‘네오클라우드’를 올해 하반기 공식 오픈하겠다고 밝혔다. 1MW 규모로 시작해 6MW, 20MW까지 키우고, 토큰 API와 베어메탈 임대 두 가지 방식으로 제공한다.
스페이스X, 리플렉션 AI에 9.7조원 규모 AI 연산 자원 판다
스페이스X가 오픈소스 AI 스타트업 리플렉션 AI와 최대 63억달러 규모의 GPU 연산 계약을 맺었다. 리플렉션 AI는 2026년 7월부터 2029년까지 매달 1억5000만달러를 내고 엔비디아 GB300 기반 연산 자원을 쓰게 된다. AI 경쟁에서 모델만큼이나 GPU 접근권과 데이터센터 인프라가 전략 자산이 됐다는 신호다.
스페이스X, 오픈소스 AI 스타트업에 최대 63억달러 규모 컴퓨팅 파워 제공
스페이스X가 오픈소스 AI 스타트업 리플렉션 AI와 대규모 컴퓨팅 파워 공급 계약을 맺었다는 보도다. 리플렉션 AI는 엔비디아 GB300 기반 인프라를 확보하기 위해 2029년까지 최대 63억달러 규모로 스페이스X의 콜로서스를 이용할 예정이다.
댓글
댓글
댓글을 불러오는 중...