본문으로 건너뛰기
피드

로컬 LLM 생태계에 Ollama는 필요 없다 — llama.cpp 래퍼의 민낯

ai-ml 약 11분
vote
0
댓글
북마크

Ollama가 llama.cpp의 성과를 가져다 쓰면서 크레딧을 주지 않고, 자체 포크로 성능을 악화시키며, VC 자금을 받아 클라우드로 전환하고 있다는 심층 비판글. 동일 하드웨어 기준 llama.cpp 대비 1.8배 느린 벤치마크, 모델 이름 왜곡, 보안 취약점 등 구체적 근거를 제시하며 llama.cpp 직접 사용과 LM Studio 등 대안을 권장함.

  • 1

    Ollama는 1년 넘게 llama.cpp 크레딧을 누락했고 MIT 라이선스 고지 의무도 미준수

  • 2

    자체 ggml 기반 백엔드 전환 후 llama.cpp가 해결한 버그를 재발시킴

  • 3

    동일 환경에서 llama.cpp가 Ollama 대비 1.8배 빠른 처리량 기록 (161 vs 89 tok/s)

  • 4

    DeepSeek R1 증류 모델을 원본 R1로 표기하여 사용자와 모델 제작사 모두에 혼란 유발

  • 5

    CVE-2025-51471 토큰 유출 취약점이 전 버전에 영향, 패치에 수개월 소요

  • 로컬 LLM 생태계에서 Ollama가 차지하는 위치가 사실상 "llama.cpp 래퍼"에 불과하다는 강도 높은 비판글이 올라옴
    • 저자는 실제 Ollama 사용자였다가 떠난 케이스로, "양비론이 아니다"라고 선을 그음
    • 핵심 주장은 명확함 — Ollama는 llama.cpp의 성과를 가져다 쓰면서 제대로 크레딧을 주지 않았고, VC 자금을 받아 점점 클라우드 서비스로 전환하고 있다는 것

llama.cpp 크레딧 논란

  • Ollama의 모든 추론 기능은 Georgi Gerganov가 2023년 3월 하룻밤 만에 만든 llama.cpp에서 나옴
    • llama.cpp는 GitHub 스타 10만 개 이상, 기여자 450명 이상으로 GGUF 기반 도구의 근간
    • Ollama는 1년 넘게 README, 웹사이트, 마케팅 어디에도 llama.cpp를 언급하지 않았음
    • MIT 라이선스의 유일한 주요 요구사항인 저작권 고지조차 바이너리에 포함하지 않았음
  • 커뮤니티가 들고 일어남 — GitHub 이슈 #3185(라이선스 준수 요청)가 400일 넘게 방치
    • 결국 공동 창업자 Michael Chiang이 README 맨 아래에 한 줄 추가하는 것으로 마무리
    • 공식 답변이 걸작임: "우리가 llama.cpp를 많이 고쳐서 쓰고 있고, 앞으로 다른 엔진으로 전환할 계획" — 사실상 크레딧 안 주겠다는 선언

자체 포크의 역설

  • 2025년 중반, Ollama는 실제로 llama.cpp 대신 하위 라이브러리인 ggml 위에 자체 백엔드를 구축함
    • 명분은 "안정성" — llama.cpp가 너무 빨리 바뀌어서 엔터프라이즈 파트너가 힘들다는 것
    • 결과는 정반대 — llama.cpp가 수년 전에 해결한 버그를 다시 만들어냄
    • 구조화된 출력 깨짐, 비전 모델 실패, GGML assertion 크래시가 줄줄이 보고됨
  • Gerganov 본인이 직접 "Ollama가 GGML을 포크해서 잘못된 변경을 했다"고 지적

중요

> 벤치마크 결과: 동일 하드웨어·동일 모델 기준으로 llama.cpp가 Ollama 대비 1.8배 빠름 (161 tok/s vs 89 tok/s). CPU에서는 30-50% 차이, Qwen-3 Coder 32B 기준으로는 ~70% 더 높은 처리량을 보임

모델 이름 장난

  • DeepSeek R1 출시 때 Ollama가 8B짜리 Qwen 기반 증류 모델을 그냥 "DeepSeek-R1"으로 표시함
    • DeepSeek 본인은 "R1-Distill"이라고 명확히 구분, Hugging Face도 정확히 표기
    • Ollama만 구분을 없앰 — "DeepSeek-R1"이 다운로드를 더 끌어모으니까
    • 결과적으로 소비자 하드웨어에서 "R1 돌려봤는데 별로다"는 글이 넘쳐나면서 DeepSeek에 오해가 쏟아짐
  • GitHub 이슈 #8557, #8698이 올라왔지만 둘 다 중복으로 닫히고 수정 없음

Modelfile이라는 삽질

  • GGUF 포맷의 핵심 원칙이 "단일 파일 배포" — 채팅 템플릿, 스톱 토큰, 메타데이터가 전부 파일 안에 들어있음
    • Ollama는 여기에 Dockerfile에서 영감받은 "Modelfile"을 또 얹음
    • GGUF에 이미 있는 정보를 중복 정의하는 구조
  • 실제 문제가 심각함
    • Ollama가 하드코딩된 목록에 없는 템플릿은 무시하고 {{ .Prompt }}로 폴백 → 모델의 인스트럭션 포맷이 조용히 깨짐
    • 온도나 시스템 프롬프트 하나 바꾸려면 Modelfile 추출 → 편집 → ollama create로 새 모델 생성 → 30~60GB 전체 복사
    • llama.cpp에서는? --temp 0.7 플래그 하나면 끝
  • 템플릿 언어도 문제 — 모델 제작자들은 Jinja로 배포하는데 Ollama만 Go 템플릿 문법을 요구
    • LM Studio는 Jinja 직접 지원, llama.cpp는 GGUF에서 읽어서 사용
    • Ollama만 번역 작업이 필요하고, 자주 틀림

레지스트리 병목과 양자화 제한

  • 새 모델이 나오면 Hugging Face에 GGUF가 몇 시간 안에 올라오지만, Ollama는 누군가가 패키징해야 함
    • llama.cpp: llama-server -hf unsloth/Qwen3.5-35B-A3B-GGUF:Q4_K_M 한 줄이면 끝
    • Ollama: 레지스트리에 올라올 때까지 대기, 아니면 Modelfile 직접 작성
  • 양자화 지원도 빈약함 — Q4_K_S, Q4_K_M, Q8_0, F16, F32만 가능
    • Q5_K_M, Q6_K, IQ 퀀트는 지원 불가. llama.cpp가 수년 전부터 지원하는 포맷인데
    • Q2_K 지원 요청에 대한 답변이 "다른 도구를 쓰세요" — 이게 "쉬운 방법"을 표방하는 프로젝트의 답변임
  • r/LocalLLaMA에서 반복되는 패턴: 새 모델 → Ollama로 테스트 → 깨지거나 느림 → 모델 탓 → 실은 Ollama 문제

클라우드 전환과 보안 이슈

  • 2025년 말, "로컬 추론의 대명사" Ollama가 클라우드 호스팅 모델을 추가함
    • MiniMax 같은 폐쇄형 모델이 목록에 떴는데, 선택하면 데이터가 외부로 나간다는 고지가 불명확
    • Ollama는 "프롬프트를 저장하지 않는다"고 하지만 제3자 제공자(알리바바 클라우드 등)의 데이터 보존 정책에 대해서는 침묵

⚠️주의

> CVE-2025-51471 — 모든 Ollama 버전에 영향을 미치는 토큰 유출 취약점이 발견됨. 악의적인 레지스트리 서버가 일반 모델 풀(pull) 과정에서 인증 토큰을 가로챌 수 있음. PR은 있지만 패치 반영에 수개월 소요

VC 패턴 — 왜 이렇게 되었나

  • Ollama는 YC W21 배치 출신, 창업자들은 Docker에 인수된 Kitematic(Docker GUI)을 만든 사람들
    • 플레이북이 익숙함: 오픈소스 래핑 → 사용자 기반 확보 → 투자 유치 → 수익화
  • 락인(lock-in) 구조가 교묘함
    • 다운로드한 모델을 해시된 파일명으로 자체 형식에 저장 → llama.cpp나 LM Studio에서 그냥 못 씀
    • 외부 GGUF를 가져오는 건 되지만 빼내는 건 일부러 불편하게 만들어놓음

대안은 이미 충분함

  • llama.cpp — 엔진 그 자체. OpenAI 호환 API 서버, 내장 웹 UI, 완전한 제어. 2026년 2월 ggml.ai가 Hugging Face에 합류하며 장기 지속성도 확보됨
  • llama-swap — 멀티모델 오케스트레이션 (로딩/언로딩/핫스와핑). LiteLLM과 조합하면 통합 OpenAI 호환 프록시로 사용 가능
  • LM Studio — GUI가 필요하면 이거. llama.cpp 기반이고 모든 GGUF 모델 락인 없이 지원
  • Jan, Msty, koboldcpp — 각각 클린 채팅 UI, 멀티모델+RAG, 웹 UI+세밀한 설정 등 특화된 대안
  • Red Hat ramalama — 컨테이너 네이티브 모델 러너. 업스트림 의존성을 전면에 내세움 — Ollama가 처음부터 했어야 할 방식
  • 이 도구들 중 세팅에 몇 분 이상 걸리는 건 없음

기술 맥락

  • llama.cpp와 Ollama의 관계를 이해하려면 레이어 구조를 알아야 해요. 맨 아래에 ggml이라는 텐서 연산 라이브러리가 있고, 그 위에 llama.cpp가 LLM 추론 로직을 구현하고, Ollama는 그걸 한번 더 감싸서 CLI/API를 제공하는 구조거든요. Ollama가 2025년에 llama.cpp를 빼고 ggml 위에 직접 구현하겠다고 한 건, 중간 레이어를 자기가 대체하겠다는 건데 결과적으로 llama.cpp 커뮤니티가 수년간 잡아온 엣지 케이스들을 다 놓친 거예요
  • GGUF 포맷이 "단일 파일에 모든 메타데이터 포함"이라는 설계 철학으로 만들어진 이유가 있어요. 예전에 모델 파일 + 토크나이저 + 설정 파일을 따로 관리하던 시절의 혼란을 해결한 건데, Ollama의 Modelfile은 그 혼란을 다시 도입한 셈이에요. 특히 Jinja 템플릿을 Go 템플릿으로 변환해야 하는 문제는, 모델 제작자가 의도한 동작과 실제 동작이 달라지는 실질적인 버그 원인이 되고 있어요
  • 벤치마크에서 1.8배 차이가 나는 건 단순히 "래퍼 오버헤드" 수준이 아니에요. Ollama의 데몬 아키텍처가 항상 떠있으면서 GPU 오프로딩을 자체 휴리스틱으로 결정하는데, 이게 llama.cpp의 수동 설정보다 비효율적인 경우가 많거든요. 로컬 LLM에서 토큰 처리량은 사용자 경험에 직결되기 때문에 꽤 큰 차이예요
  • VC 투자와 오픈소스 프로젝트의 긴장 관계는 이 업계에서 반복되는 패턴이에요. Docker 자체가 비슷한 경로를 걸었고, Ollama 창업자들이 Docker 생태계 출신이라는 점이 의미심장하죠. "Docker for LLMs"라는 피칭 자체가 래퍼 비즈니스 모델을 처음부터 의도한 거라고 볼 수 있어요

Ollama의 '쉬운 설정'이라는 가치 제안이 성능 저하, 호환성 문제, 벤더 락인으로 상쇄되는 상황. llama.cpp 직접 사용의 진입 장벽이 크게 낮아진 지금, Ollama를 기본값으로 쓰는 관행을 재검토할 시점임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI 랠리의 다음 격전지, 데이터센터 밖으로 나오는 엣지 AI

지금까지 AI의 중심이 클라우드 데이터센터였다면, 다음 확산지는 공장·차량·로봇·드론·개인용 컴퓨터 같은 엣지 영역이라는 분석이 나와. 엔비디아가 말해온 생성형 AI, 에이전트 AI, 피지컬 AI 흐름과 맞물리면서 델과 퀄컴 같은 기업에 대한 기대도 커지고 있어.

ai-ml

네이버, 엔비디아와 국방 AI 인프라 협력 더 키우나

네이버가 국방 인공지능(AI) 시장을 노리면서 엔비디아와의 협력 관계가 더 중요해지고 있어. 국방 AI는 모델만 잘 만든다고 되는 게 아니라, 위성·드론·레이더·센서 데이터를 실시간으로 처리할 그래픽처리장치(GPU)와 데이터센터 인프라가 핵심이라는 분석이 나와.

ai-ml

AI 인프라 전쟁의 새 축, ‘네오클라우드’가 뜬다

AI 경쟁의 무게중심이 모델 개발에서 GPU 인프라 확보로 이동하면서, GPUaaS를 전문으로 하는 네오클라우드 사업자가 빠르게 부상하고 있다. 코어위브, 람다랩스, 네비우스 같은 글로벌 기업뿐 아니라 베슬AI, 몬드리안에이아이, 엘리스그룹 같은 국내 기업도 이 시장을 노리고 있다.

ai-ml

한국 AI, 성벽 쌓기보다 길 내는 하이브리드 전략이 필요하다는 주장

한국이 AI 3대 강국을 노린다면 한국어와 내수 중심의 방어형 소버린 AI에만 머물면 안 된다는 기고문이다. 기반 기술과 생태계는 열고, 핵심 데이터와 산업별 지식은 지키는 하이브리드 전략이 필요하다는 논지다.

ai-ml

델, AI 서버 수요 폭발로 1분기 매출 88% 급증

델테크놀로지스가 AI 서버 수요에 힘입어 1분기 매출 438억달러를 기록하며 전년 대비 88% 성장했다. 특히 AI 서버 매출은 161억달러로 757% 폭증했고, 올해 AI 서버 매출 전망도 600억달러로 상향됐다.