---
title: "로컬 LLM, 생각보다 싸지 않다? Apple Silicon이 OpenRouter보다 비싼 이유"
published: 2026-05-17T12:09:23.000Z
canonical: https://jeff.news/article/2869
---
# 로컬 LLM, 생각보다 싸지 않다? Apple Silicon이 OpenRouter보다 비싼 이유

작성자는 M5 Max MacBook Pro에서 로컬 LLM 추론 비용을 전기요금과 하드웨어 감가상각까지 포함해 계산했다. 결론은 비슷한 급의 OpenRouter 모델이 대체로 더 싸고 빠르며, 로컬 추론은 프라이버시나 실험 목적이 아니라면 비용 우위가 약하다는 쪽이다.

- “로컬 LLM은 내 장비에서 돌리니까 싸다”는 말에 꽤 찬물을 끼얹는 계산이 나옴
  - 작성자는 M5 Max MacBook Pro에서 Gemma 4 31B급 모델을 돌리는 상황을 가정함
  - 전기요금, 노트북 가격, 사용 수명, 초당 토큰 생성 속도를 다 넣어 백만 토큰당 비용을 계산함
  - 결론은 OpenRouter가 대체로 더 싸고, 속도도 더 빠르다는 쪽임

- 전기요금만 보면 로컬 추론은 정말 싸 보임
  - 북버지니아 기준 전기요금을 kWh당 0.18달러, 계산 편의상 0.20달러로 둠
  - Apple Silicon이 부하 상태에서 50-100W를 먹는다고 보면 시간당 전기요금은 약 0.009-0.018달러
  - 하루 종일 100% 추론을 돌려도 전기요금은 약 0.48달러 수준임

- 문제는 전기가 아니라 하드웨어 감가상각임
  - 14인치 M5 Max MacBook Pro 64GB 모델 가격을 4,299달러로 잡음
  - 3년 쓰면 연 1,433달러, 5년 쓰면 연 860달러, 10년 쓰면 연 430달러로 나뉨
  - 시간당 하드웨어 비용은 각각 약 0.16358달러, 0.09815달러, 0.04908달러가 됨
  - 즉 로컬 추론 비용의 대부분은 콘센트가 아니라 노트북 가격에서 나옴

> [!IMPORTANT]
> 작성자의 핵심 계산은 “전기요금은 거의 무시해도 되지만, 고가 노트북을 추론 장비로 쓰는 감가상각은 절대 무시하면 안 된다”는 것임.

- 토큰 처리량을 넣으면 그림이 더 선명해짐
  - M5 Max에서 Gemma 4 31B 같은 ‘진지한 모델’은 대략 10-40 tokens/s로 측정됐다고 함
  - 10 tokens/s면 시간당 36,000 tokens
  - 40 tokens/s면 시간당 144,000 tokens
  - 이 처리량을 3-10년 수명과 전기요금에 대입하면 백만 토큰당 약 0.40-4.79달러 범위가 나옴

- OpenRouter와 비교하면 로컬의 비용 우위가 거의 사라짐
  - OpenRouter의 Gemma 4 31B 가격은 백만 토큰당 약 0.38-0.50달러로 제시됨
  - 가장 낙관적인 로컬 조건, 즉 50W, 40 tokens/s, 10년 사용이면 MacBook Pro도 OpenRouter와 비슷해질 수 있음
  - 반대로 100W, 10 tokens/s, 3년 사용이면 로컬이 OpenRouter보다 최대 10배 비싸질 수 있음
  - 작성자는 현실적인 평균으로는 로컬 추론이 백만 토큰당 약 3배 비쌀 가능성이 높다고 봄

- 속도까지 보면 클라우드 쪽 손이 더 올라감
  - 일부 OpenRouter 제공자는 Gemma 4 계열에서 60-70 tokens/s까지 나온다고 함
  - 작성자가 본 Pro Max 로컬 추론은 대략 10-20 tokens/s라서, 클라우드가 3-7배 빠른 셈
  - 사람이 기다리는 시간이 섞이면 토큰 비용보다 개발자 인건비가 훨씬 커짐
  - 작성자는 직원에게 업무용 노트북이 있는 맥락에선 Anthropic 같은 API에 돈을 쓰는 편이 더 말이 된다고 봄

- 그래도 소비자 기기에서 Sonnet급에 가까운 모델을 돌릴 수 있다는 사실 자체는 여전히 꽤 미친 일임
  - 비용 최적화 관점에선 OpenRouter가 유리할 수 있음
  - 하지만 오프라인, 프라이버시, 실험, 모델 제어권이 중요하면 로컬 추론의 가치는 따로 있음
  - 이 글은 로컬 LLM을 버리자는 얘기보단 “싸다는 이유만으로 합리화하긴 어렵다”에 가까움

---

## 기술 맥락

- 이 글의 선택지는 단순해요. LLM을 내 MacBook에서 직접 돌릴지, OpenRouter 같은 클라우드 라우터로 호출할지 비교하는 거예요. 겉으로는 로컬이 무료처럼 보이지만, 실제 계산은 훨씬 덜 낭만적이에요.

- 왜 하드웨어 감가상각을 넣느냐가 핵심이에요. 4,299달러짜리 노트북을 추론에 계속 쓰면 전기요금보다 장비 수명과 기회비용이 더 크게 작동하거든요. 그래서 백만 토큰당 비용을 계산하면 로컬이 API보다 비싸지는 구간이 쉽게 나와요.

- tokens per second도 비용만큼 중요해요. 같은 모델이라도 10 tokens/s로 기다리는 것과 70 tokens/s로 받는 것은 개발자 경험이 완전히 달라요. 특히 코딩 에이전트처럼 반복 호출이 많은 작업에서는 느린 추론이 사람의 대기 시간으로 바로 번져요.

- 로컬 추론이 의미 없는 건 아니에요. 네트워크 없이 써야 하거나, 민감한 코드를 외부 API로 보내기 어렵거나, 모델 실행 환경을 직접 통제해야 한다면 여전히 강한 선택지예요. 다만 “돈 아끼려고 로컬”이라는 주장은 숫자를 넣어 보면 꽤 약해질 수 있어요.

## 핵심 포인트

- M5 Max 로컬 추론은 Gemma 4 31B 기준 대략 10-40 tokens/s 수준으로 계산됨
- 전기요금보다 하드웨어 감가상각이 비용의 대부분을 차지함
- OpenRouter의 Gemma 4 31B 가격은 백만 토큰당 약 0.38-0.50달러로 제시됨
- 낙관적 조건에서는 로컬이 비슷하지만, 비관적 조건에서는 OpenRouter보다 최대 10배 비쌀 수 있음

## 인사이트

로컬 LLM을 ‘한 번 사면 공짜’처럼 보는 계산은 꽤 자주 틀림. 개발자 개인 장비에서는 전기요금보다 노트북 감가상각과 추론 속도가 훨씬 큰 변수라서, 비용만 보면 클라우드 API가 이기는 경우가 많음.