10년 된 제온 서버로 젬마4 26B를 돌린 미친 로컬 추론기
글쓴이는 2016년형 Intel Xeon E5-2620 v4, DDR3 128GB, GPU 없는 서버에서 Gemma 4 26B-A4B 모델을 읽는 속도로 돌리는 설정을 공개했어. 핵심은 ik_llama.cpp의 투기적 디코딩, MoE 라우팅, 런타임 리패킹, CPU용 Flash Attention 같은 최적화를 끝까지 끌어낸 것임.
- 1
GPU 없이 2016년형 Xeon E5-2620 v4와 DDR3 128GB만으로 25B급 MoE 모델을 실행함
- 2
전체 메모리 요구량은 약 82GB이며, 모델 가중치 약 25GB보다 262K 컨텍스트용 KV 캐시 약 56GB가 더 큼
- 3
성능의 병목은 CPU 연산보다 메모리 대역폭이며, 이를 우회하기 위해 투기적 디코딩과 캐시 친화적 MoE 최적화를 사용함
- 4
Ollama 같은 블랙박스 도구로는 노출되지 않는 25개 안팎의 플래그를 직접 조합해야 했음
이 글의 재미는 ‘낡은 서버도 AI 된다’가 아니라, 로컬 추론 성능이 결국 모델 파일보다 런타임과 메모리 아키텍처 이해에 달려 있다는 데 있어. 오픈 웨이트 AI의 장벽이 하드웨어 가격만이 아니라 문서 없는 플래그, 조용히 실패하는 최적화, 블랙박스 래퍼라는 점을 제대로 보여줌.
관련 기사
아이폰에서 도는 4B 이미지 생성 모델, Bonsai Image 4B 공개
PrismML이 로컬 기기용 이미지 생성 모델 Bonsai Image 4B를 공개했다. 1비트와 삼진 양자화 버전으로 나뉘며, 전체 정밀도 FLUX.2 Klein 4B 대비 메모리 사용량을 크게 줄여 아이폰에서도 512×512 이미지를 생성할 수 있게 만든 게 핵심이다.
젠슨 황 키노트에 네이버클라우드 등장, 엔비디아 AI 인프라 파트너로 부각
젠슨 황 엔비디아 최고경영자가 GTC 타이페이 2026 기조연설에서 네이버클라우드를 AI 네이티브 클라우드 주요 파트너로 소개했다. 하이퍼클로바X, 네이버 월드모델, AI 팩토리, 데이터센터 각까지 함께 언급되며 네이버의 AI 인프라 협력이 다시 주목받고 있다.
중국 AI, 한국 시장에 초저가로 진입…데이터 안보 리스크도 같이 커진다
미국 AI 기업이 선점한 한국 생성형 AI 시장에 미니맥스, 지푸AI 같은 중국 기업들이 가격과 콘텐츠 특화 기능을 앞세워 들어오고 있어. 토큰 비용은 미국 주요 모델 대비 최대 20분의 1 수준까지 내려가지만, 데이터 안보와 AI 공급망 종속 리스크도 같이 커진다는 게 핵심이야.
인텔, OpenVINO로 로봇용 피지컬 AI 배포 난이도 낮춘다
인텔이 컴퓨텍스 2026에 맞춰 OpenVINO 피지컬 AI 프레임워크와 로보틱스 AI 스위트 전략을 공개했어. 핵심은 로봇마다 따로 맞추던 센서, 추론, 제어 스택을 인텔 칩과 오픈소스 프레임워크 기반으로 단순화해 현장 배포를 쉽게 만들겠다는 거야.
엔비디아, 로봇·자율주행·공장 AI용 오픈소스 에이전트 스킬 공개
엔비디아가 컴퓨텍스 2026과 GTC 타이베이에서 피지컬 인공지능 개발용 오픈소스 에이전트 스킬과 도구 모음을 공개했다. 코스모스, 옴니버스, 아이작, 메트로폴리스, 젯슨 같은 엔비디아 스택을 코딩 에이전트가 직접 호출해 데이터 생성, 시뮬레이션, 학습, 평가, 배포를 자동화하게 만드는 구상이다.
댓글
댓글
댓글을 불러오는 중...