0
llama.cpp, 드디어 리눅스에서도 시스템 RAM 통합 오프로딩 지원
ai-ml
요약
기사 전체 정리
llama.cpp, 드디어 리눅스에서도 시스템 RAM 통합 오프로딩 지원
llama.cpp가 드디어 리눅스에서도 **통합/이기종 메모리 관리(Unified/Heterogeneous Memory Management)**를 지원하기 시작했음. 지금까지 이 기능은 Windows에서 GPU 공유 가상 메모리를 "혹사"시키는 방법으로만 가능했는데, 이제 리눅스에서도 된다는 거임
이게 가능해진 건 세 가지가 동시에 맞물렸기 때문임: llama.cpp 코어 코드 변경 + 리눅스 커널 업데이트 + NVIDIA의 새 "오픈" 드라이버 및 CUDA 13 지원
실질적으로 의미하는 건 macOS의 통합 메모리 같은 경험을 리눅스에서도 AI 추론에 활용할 수 있다는 것임
게이밍 PC 수준이면 충분함
적절한 CLI 플래그 + 희소 활성화 모델(예: Qwen 3.5 35B A3B)을 조합하면, RTX 3060 / i5 또는 Ryzen 5 / 32GB RAM(DDR4든 DDR5든) / 500~700W 파워 정도의 "매장에서 팔리는 게이밍 PC" 수준으로 AI 추론이 돌아간다는 거임
llama.cpp 내장 서버나 직접 코드를 짜면, 사무실 구석 클로젯에 박스 하나 넣어두고 팀 전용 프라이빗 AI 허브를 운영할 수도 있음. 월 비용 $0
팁
> 주의사항: NVIDIA 설치 가이드가 Secure Boot를 고려하지 않음. Ubuntu/RHEL은 사전 서명된 드라이버가 있지만, 그 외 배포판은 리부팅 전에 mokutils를 꼭 실행해야 함. Ubuntu 26.04 LTS(2026년 4월 출시)에서는 CUDA 개발 환경 설치가 훨씬 쉬워질 예정
- 글쓴이가 마지막에 "Sam, Elon, Mark, Dario 다 끝났다. AI가 해방됐다"고 선언하는데, 마침 같은 날 LiteLLM 추론 프레임워크 보안 침해 사건이 터졌다고 함. 온디바이스 추론의 보안 이점이 공교롭게 부각된 타이밍
댓글
댓글
댓글을 불러오는 중...