로컬 LLM 생태계에 Ollama는 필요 없다 — llama.cpp 래퍼의 민낯

ai-ml 2026-04-16 약 11분

 tags

#llama-cpp #ollama #local-llm #gguf #open-source

vote

북마크

Ollama가 llama.cpp의 성과를 가져다 쓰면서 크레딧을 주지 않고, 자체 포크로 성능을 악화시키며, VC 자금을 받아 클라우드로 전환하고 있다는 심층 비판글. 동일 하드웨어 기준 llama.cpp 대비 1.8배 느린 벤치마크, 모델 이름 왜곡, 보안 취약점 등 구체적 근거를 제시하며 llama.cpp 직접 사용과 LM Studio 등 대안을 권장함.

1
Ollama는 1년 넘게 llama.cpp 크레딧을 누락했고 MIT 라이선스 고지 의무도 미준수
2
자체 ggml 기반 백엔드 전환 후 llama.cpp가 해결한 버그를 재발시킴
3
동일 환경에서 llama.cpp가 Ollama 대비 1.8배 빠른 처리량 기록 (161 vs 89 tok/s)
4
DeepSeek R1 증류 모델을 원본 R1로 표기하여 사용자와 모델 제작사 모두에 혼란 유발
5
CVE-2025-51471 토큰 유출 취약점이 전 버전에 영향, 패치에 수개월 소요

로컬 LLM 생태계에서 Ollama가 차지하는 위치가 사실상 "llama.cpp 래퍼"에 불과하다는 강도 높은 비판글이 올라옴
- 저자는 실제 Ollama 사용자였다가 떠난 케이스로, "양비론이 아니다"라고 선을 그음
- 핵심 주장은 명확함 — Ollama는 llama.cpp의 성과를 가져다 쓰면서 제대로 크레딧을 주지 않았고, VC 자금을 받아 점점 클라우드 서비스로 전환하고 있다는 것

llama.cpp 크레딧 논란

Ollama의 모든 추론 기능은 Georgi Gerganov가 2023년 3월 하룻밤 만에 만든 llama.cpp에서 나옴
- llama.cpp는 GitHub 스타 10만 개 이상, 기여자 450명 이상으로 GGUF 기반 도구의 근간
- Ollama는 1년 넘게 README, 웹사이트, 마케팅 어디에도 llama.cpp를 언급하지 않았음
- MIT 라이선스의 유일한 주요 요구사항인 저작권 고지조차 바이너리에 포함하지 않았음
커뮤니티가 들고 일어남 — GitHub 이슈 #3185(라이선스 준수 요청)가 400일 넘게 방치됨
- 결국 공동 창업자 Michael Chiang이 README 맨 아래에 한 줄 추가하는 것으로 마무리
- 공식 답변이 걸작임: "우리가 llama.cpp를 많이 고쳐서 쓰고 있고, 앞으로 다른 엔진으로 전환할 계획" — 사실상 크레딧 안 주겠다는 선언

자체 포크의 역설

2025년 중반, Ollama는 실제로 llama.cpp 대신 하위 라이브러리인 ggml 위에 자체 백엔드를 구축함
- 명분은 "안정성" — llama.cpp가 너무 빨리 바뀌어서 엔터프라이즈 파트너가 힘들다는 것
- 결과는 정반대 — llama.cpp가 수년 전에 해결한 버그를 다시 만들어냄
- 구조화된 출력 깨짐, 비전 모델 실패, GGML assertion 크래시가 줄줄이 보고됨
Gerganov 본인이 직접 "Ollama가 GGML을 포크해서 잘못된 변경을 했다"고 지적

❗중요

> 벤치마크 결과: 동일 하드웨어·동일 모델 기준으로 llama.cpp가 Ollama 대비 1.8배 빠름 (161 tok/s vs 89 tok/s). CPU에서는 30-50% 차이, Qwen-3 Coder 32B 기준으로는 ~70% 더 높은 처리량을 보임

모델 이름 장난

DeepSeek R1 출시 때 Ollama가 8B짜리 Qwen 기반 증류 모델을 그냥 "DeepSeek-R1"으로 표시함
- DeepSeek 본인은 "R1-Distill"이라고 명확히 구분, Hugging Face도 정확히 표기
- Ollama만 구분을 없앰 — "DeepSeek-R1"이 다운로드를 더 끌어모으니까
- 결과적으로 소비자 하드웨어에서 "R1 돌려봤는데 별로다"는 글이 넘쳐나면서 DeepSeek에 오해가 쏟아짐
GitHub 이슈 #8557, #8698이 올라왔지만 둘 다 중복으로 닫히고 수정 없음

Modelfile이라는 삽질

GGUF 포맷의 핵심 원칙이 "단일 파일 배포" — 채팅 템플릿, 스톱 토큰, 메타데이터가 전부 파일 안에 들어있음
- Ollama는 여기에 Dockerfile에서 영감받은 "Modelfile"을 또 얹음
- GGUF에 이미 있는 정보를 중복 정의하는 구조
실제 문제가 심각함
- Ollama가 하드코딩된 목록에 없는 템플릿은 무시하고 {{ .Prompt }}로 폴백 → 모델의 인스트럭션 포맷이 조용히 깨짐
- 온도나 시스템 프롬프트 하나 바꾸려면 Modelfile 추출 → 편집 → ollama create로 새 모델 생성 → 30~60GB 전체 복사
- llama.cpp에서는? --temp 0.7 플래그 하나면 끝
템플릿 언어도 문제 — 모델 제작자들은 Jinja로 배포하는데 Ollama만 Go 템플릿 문법을 요구
- LM Studio는 Jinja 직접 지원, llama.cpp는 GGUF에서 읽어서 사용
- Ollama만 번역 작업이 필요하고, 자주 틀림

레지스트리 병목과 양자화 제한

새 모델이 나오면 Hugging Face에 GGUF가 몇 시간 안에 올라오지만, Ollama는 누군가가 패키징해야 함
- llama.cpp: llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M 한 줄이면 끝
- Ollama: 레지스트리에 올라올 때까지 대기, 아니면 Modelfile 직접 작성
양자화 지원도 빈약함 — Q4_K_S, Q4_K_M, Q8_0, F16, F32만 가능
- Q5_K_M, Q6_K, IQ 퀀트는 지원 불가. llama.cpp가 수년 전부터 지원하는 포맷인데
- Q2_K 지원 요청에 대한 답변이 "다른 도구를 쓰세요" — 이게 "쉬운 방법"을 표방하는 프로젝트의 답변임
r/LocalLLaMA에서 반복되는 패턴: 새 모델 → Ollama로 테스트 → 깨지거나 느림 → 모델 탓 → 실은 Ollama 문제

클라우드 전환과 보안 이슈

2025년 말, "로컬 추론의 대명사" Ollama가 클라우드 호스팅 모델을 추가함
- MiniMax 같은 폐쇄형 모델이 목록에 떴는데, 선택하면 데이터가 외부로 나간다는 고지가 불명확
- Ollama는 "프롬프트를 저장하지 않는다"고 하지만 제3자 제공자(알리바바 클라우드 등)의 데이터 보존 정책에 대해서는 침묵

⚠️주의

> CVE-2025-51471 — 모든 Ollama 버전에 영향을 미치는 토큰 유출 취약점이 발견됨. 악의적인 레지스트리 서버가 일반 모델 풀(pull) 과정에서 인증 토큰을 가로챌 수 있음. PR은 있지만 패치 반영에 수개월 소요

VC 패턴 — 왜 이렇게 되었나

Ollama는 YC W21 배치 출신, 창업자들은 Docker에 인수된 Kitematic(Docker GUI)을 만든 사람들
- 플레이북이 익숙함: 오픈소스 래핑 → 사용자 기반 확보 → 투자 유치 → 수익화
락인(lock-in) 구조가 교묘함
- 다운로드한 모델을 해시된 파일명으로 자체 형식에 저장 → llama.cpp나 LM Studio에서 그냥 못 씀
- 외부 GGUF를 가져오는 건 되지만 빼내는 건 일부러 불편하게 만들어놓음

대안은 이미 충분함

llama.cpp — 엔진 그 자체. OpenAI 호환 API 서버, 내장 웹 UI, 완전한 제어. 2026년 2월 ggml.ai가 Hugging Face에 합류하며 장기 지속성도 확보됨
llama-swap — 멀티모델 오케스트레이션 (로딩/언로딩/핫스와핑). LiteLLM과 조합하면 통합 OpenAI 호환 프록시로 사용 가능
LM Studio — GUI가 필요하면 이거. llama.cpp 기반이고 모든 GGUF 모델 락인 없이 지원
Jan, Msty, koboldcpp — 각각 클린 채팅 UI, 멀티모델+RAG, 웹 UI+세밀한 설정 등 특화된 대안
Red Hat ramalama — 컨테이너 네이티브 모델 러너. 업스트림 의존성을 전면에 내세움 — Ollama가 처음부터 했어야 할 방식
이 도구들 중 세팅에 몇 분 이상 걸리는 건 없음

기술 맥락

llama.cpp와 Ollama의 관계를 이해하려면 레이어 구조를 알아야 해요. 맨 아래에 ggml이라는 텐서 연산 라이브러리가 있고, 그 위에 llama.cpp가 LLM 추론 로직을 구현하고, Ollama는 그걸 한번 더 감싸서 CLI/API를 제공하는 구조거든요. Ollama가 2025년에 llama.cpp를 빼고 ggml 위에 직접 구현하겠다고 한 건, 중간 레이어를 자기가 대체하겠다는 건데 결과적으로 llama.cpp 커뮤니티가 수년간 잡아온 엣지 케이스들을 다 놓친 거예요
GGUF 포맷이 "단일 파일에 모든 메타데이터 포함"이라는 설계 철학으로 만들어진 이유가 있어요. 예전에 모델 파일 + 토크나이저 + 설정 파일을 따로 관리하던 시절의 혼란을 해결한 건데, Ollama의 Modelfile은 그 혼란을 다시 도입한 셈이에요. 특히 Jinja 템플릿을 Go 템플릿으로 변환해야 하는 문제는, 모델 제작자가 의도한 동작과 실제 동작이 달라지는 실질적인 버그 원인이 되고 있어요
벤치마크에서 1.8배 차이가 나는 건 단순히 "래퍼 오버헤드" 수준이 아니에요. Ollama의 데몬 아키텍처가 항상 떠있으면서 GPU 오프로딩을 자체 휴리스틱으로 결정하는데, 이게 llama.cpp의 수동 설정보다 비효율적인 경우가 많거든요. 로컬 LLM에서 토큰 처리량은 사용자 경험에 직결되기 때문에 꽤 큰 차이예요
VC 투자와 오픈소스 프로젝트의 긴장 관계는 이 업계에서 반복되는 패턴이에요. Docker 자체가 비슷한 경로를 걸었고, Ollama 창업자들이 Docker 생태계 출신이라는 점이 의미심장하죠. "Docker for LLMs"라는 피칭 자체가 래퍼 비즈니스 모델을 처음부터 의도한 거라고 볼 수 있어요

Ollama의 '쉬운 설정'이라는 가치 제안이 성능 저하, 호환성 문제, 벤더 락인으로 상쇄되는 상황. llama.cpp 직접 사용의 진입 장벽이 크게 낮아진 지금, Ollama를 기본값으로 쓰는 관행을 재검토할 시점임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

로컬 LLM 생태계에 Ollama는 필요 없다 — llama.cpp 래퍼의 민낯

요약

핵심 포인트

핵심 개념

분석

llama.cpp 크레딧 논란

자체 포크의 역설

모델 이름 장난

Modelfile이라는 삽질

레지스트리 병목과 양자화 제한

클라우드 전환과 보안 이슈

VC 패턴 — 왜 이렇게 되었나

대안은 이미 충분함

기술 맥락

인사이트

댓글

댓글

로컬 LLM 생태계에 Ollama는 필요 없다 — llama.cpp 래퍼의 민낯

요약

핵심 포인트

핵심 개념

분석

llama.cpp 크레딧 논란

자체 포크의 역설

모델 이름 장난

Modelfile이라는 삽질

레지스트리 병목과 양자화 제한

클라우드 전환과 보안 이슈

VC 패턴 — 왜 이렇게 되었나

대안은 이미 충분함

기술 맥락

인사이트

댓글

댓글

관련 기사