---
title: "AI 비용 줄이려면 이제 '토큰 많이 쓰기'보다 '모델 골라 쓰기'가 답이라는 흐름"
published: 2026-07-05T19:05:01.517Z
canonical: https://jeff.news/article/4655
---
# AI 비용 줄이려면 이제 '토큰 많이 쓰기'보다 '모델 골라 쓰기'가 답이라는 흐름

기업들이 AI 사용료 폭탄을 맞으면서 모든 작업에 최신 모델을 태우는 방식에서 벗어나고 있음. 어려운 추론은 비싼 모델에 맡기고, 반복 작업은 저렴한 모델이나 오픈소스 모델로 돌리는 '모델맥싱'과 '모델 라우팅'이 뜨는 중임.

- 기업 AI 사용 흐름이 '토큰맥싱'에서 '모델맥싱'으로 넘어가고 있음
  - 예전엔 무제한으로 많이 쓰게 만드는 쪽이 분위기였다면, 이제는 작업별로 모델을 골라 쓰자는 쪽으로 무게가 이동 중임
  - 이유는 단순함. AI 사용량은 늘어나는데, 최신 모델 API 비용을 계속 감당하기 빡세기 때문임

- 모델맥싱은 쉽게 말해 '비싼 모델을 아무 데나 태우지 말자'는 전략임
  - 과학적 돌파구, 긴 추론, 고급 에이전트 관리자 같은 어려운 작업은 클로드 페이블5나 GPT-5.5 같은 최신 모델에 맡김
  - 단순 반복 작업은 구형 모델, 저렴한 모델, 오픈소스 모델로 보내서 비용을 낮춤
  - 개발팀으로 치면 모든 작업을 시니어에게 던지는 게 아니라, 난이도에 따라 주니어·자동화·전문가를 나눠 쓰는 느낌에 가까움

> [!IMPORTANT]
> 코인베이스 CEO 브라이언 암스트롱은 12~18개월 안에 AI 작업의 80%가 기존보다 99% 더 저렴한 모델에서 실행될 거라고 봄. 최신 모델이 필요한 작업은 전체의 20% 정도라는 얘기임.

- 실제 스타트업들도 팀별로 모델과 추론 수준을 다르게 설정하고 있음
  - 볼드 메트릭스는 어떤 팀에는 클로드 페이블을 낮은 추론 수준으로 쓰게 하고, 다른 팀에는 GPT-5.5를 높은 추론 수준으로 설정함
  - 또 다른 팀은 커서의 코딩 도구인 컴포저 2.5를 쓰는 식으로, 팀 업무에 맞춰 도구와 모델을 나눔
  - 여기서 중요한 건 '우리 회사 표준 모델 하나'가 아니라 '업무별 기본 모델 세트'가 생긴다는 점임

- 비싼 최신 모델을 무작정 쓰는 문화에 대한 비판도 나옴
  - AI 스타트업 헤추라의 크리스 마코니는 사람들이 어떤 모델이 어떤 작업에 좋은지 파악하는 귀찮은 과정을 피하고 싶어 한다고 지적함
  - 그냥 유행 타는 모델을 쓰고 싶은 마음은 이해되지만, API 청구서가 오면 얘기가 달라짐
  - 결국 모델 선택은 기술 취향이 아니라 비용 구조의 문제가 됨

- 이 흐름 때문에 '모델 라우팅' 스타트업이 뜨고 있음
  - 모델 라우터는 사용자의 요청 내용을 분석해서 적합한 모델로 보내주는 중간 계층임
  - 기업 지출 관리 플랫폼 램프에 따르면 모델 라우터를 쓰는 기업 비중은 지난해 1%에서 올해 5%로 늘었음
  - 숫자만 보면 아직 작지만, 기업들이 AI 비용을 본격적으로 관리하기 시작했다는 신호로 볼 수 있음

- 모델맥싱은 한국 개발팀에도 꽤 현실적인 얘기임
  - 사내 챗봇, 코드 리뷰 보조, 고객 문의 분류, 문서 요약처럼 난이도가 다른 작업을 한 모델로 처리하면 비용이 빨리 새어나감
  - 특히 트래픽이 많은 서비스에서 AI 기능을 붙일수록 '모델 성능'보다 '요청당 원가'가 제품 지속 가능성을 좌우할 수 있음
  - 이제 AI 아키텍처 설계에는 프롬프트뿐 아니라 라우팅, 캐싱, 모델 등급, 실패 시 폴백까지 같이 들어가야 함

---

## 기술 맥락

- 모델맥싱의 핵심은 모든 요청을 최고급 대규모 언어 모델(LLM)에 보내지 않는 거예요. 쉬운 분류, 짧은 요약, 반복적인 코드 보조까지 비싼 모델로 처리하면 성능은 좋아 보여도 요청당 비용이 너무 빨리 커지거든요.

- 그래서 기업들은 요청 앞단에 모델 라우터를 두고, 작업 난이도에 따라 모델을 나누려는 거예요. 간단한 작업은 저렴한 모델이나 오픈소스 모델로 보내고, 긴 추론이나 복잡한 에이전트 조율만 최신 모델에 맡기는 구조죠.

- 이 선택이 중요한 이유는 AI 수요가 거의 무한에 가깝게 늘어날 수 있기 때문이에요. 코인베이스 CEO가 말한 것처럼 작업의 80%를 99% 더 싼 모델에서 처리할 수 있다면, 같은 예산으로 훨씬 많은 AI 기능을 운영할 수 있어요.

- 개발팀 입장에서는 모델 라우팅이 단순한 비용 절감 기능이 아니라 아키텍처 레이어가 돼요. 어떤 요청을 어느 모델에 보낼지, 실패하면 어디로 폴백할지, 팀별로 추론 수준을 어떻게 제한할지까지 운영 정책으로 잡아야 하거든요.

## 핵심 포인트

- AI 수요는 계속 늘지만 최신 모델이 꼭 필요한 작업은 일부라는 인식이 커지고 있음
- 코인베이스 CEO는 12~18개월 안에 작업의 80%가 99% 더 저렴한 모델에서 실행될 수 있다고 봄
- 기업들이 API 요금 고지서를 받고 나서야 모델 사용 전략을 다시 짜기 시작함
- 요청을 분석해 적합한 모델로 보내주는 모델 라우팅 스타트업 사용률이 지난해 1%에서 올해 5%로 증가함

## 인사이트

AI 도입의 다음 병목은 모델 성능이 아니라 비용 통제임. 개발팀 입장에서는 '어떤 모델이 제일 똑똑한가'보다 '이 작업에 이 모델값을 낼 이유가 있나'가 더 중요한 질문이 되고 있음.