본문으로 건너뛰기
피드

AI 비용 줄이려면 이제 '토큰 많이 쓰기'보다 '모델 골라 쓰기'가 답이라는 흐름

ai-ml 약 5분
vote
0
댓글
북마크

기업들이 AI 사용료 폭탄을 맞으면서 모든 작업에 최신 모델을 태우는 방식에서 벗어나고 있음. 어려운 추론은 비싼 모델에 맡기고, 반복 작업은 저렴한 모델이나 오픈소스 모델로 돌리는 '모델맥싱'과 '모델 라우팅'이 뜨는 중임.

  • 1

    AI 수요는 계속 늘지만 최신 모델이 꼭 필요한 작업은 일부라는 인식이 커지고 있음

  • 2

    코인베이스 CEO는 12~18개월 안에 작업의 80%가 99% 더 저렴한 모델에서 실행될 수 있다고 봄

  • 3

    기업들이 API 요금 고지서를 받고 나서야 모델 사용 전략을 다시 짜기 시작함

  • 4

    요청을 분석해 적합한 모델로 보내주는 모델 라우팅 스타트업 사용률이 지난해 1%에서 올해 5%로 증가함

  • 기업 AI 사용 흐름이 '토큰맥싱'에서 '모델맥싱'으로 넘어가고 있음

    • 예전엔 무제한으로 많이 쓰게 만드는 쪽이 분위기였다면, 이제는 작업별로 모델을 골라 쓰자는 쪽으로 무게가 이동 중임
    • 이유는 단순함. AI 사용량은 늘어나는데, 최신 모델 API 비용을 계속 감당하기 빡세기 때문임
  • 모델맥싱은 쉽게 말해 '비싼 모델을 아무 데나 태우지 말자'는 전략임

    • 과학적 돌파구, 긴 추론, 고급 에이전트 관리자 같은 어려운 작업은 클로드 페이블5나 GPT-5.5 같은 최신 모델에 맡김
    • 단순 반복 작업은 구형 모델, 저렴한 모델, 오픈소스 모델로 보내서 비용을 낮춤
    • 개발팀으로 치면 모든 작업을 시니어에게 던지는 게 아니라, 난이도에 따라 주니어·자동화·전문가를 나눠 쓰는 느낌에 가까움

중요

> 코인베이스 CEO 브라이언 암스트롱은 12~18개월 안에 AI 작업의 80%가 기존보다 99% 더 저렴한 모델에서 실행될 거라고 봄. 최신 모델이 필요한 작업은 전체의 20% 정도라는 얘기임.

  • 실제 스타트업들도 팀별로 모델과 추론 수준을 다르게 설정하고 있음

    • 볼드 메트릭스는 어떤 팀에는 클로드 페이블을 낮은 추론 수준으로 쓰게 하고, 다른 팀에는 GPT-5.5를 높은 추론 수준으로 설정함
    • 또 다른 팀은 커서의 코딩 도구인 컴포저 2.5를 쓰는 식으로, 팀 업무에 맞춰 도구와 모델을 나눔
    • 여기서 중요한 건 '우리 회사 표준 모델 하나'가 아니라 '업무별 기본 모델 세트'가 생긴다는 점임
  • 비싼 최신 모델을 무작정 쓰는 문화에 대한 비판도 나옴

    • AI 스타트업 헤추라의 크리스 마코니는 사람들이 어떤 모델이 어떤 작업에 좋은지 파악하는 귀찮은 과정을 피하고 싶어 한다고 지적함
    • 그냥 유행 타는 모델을 쓰고 싶은 마음은 이해되지만, API 청구서가 오면 얘기가 달라짐
    • 결국 모델 선택은 기술 취향이 아니라 비용 구조의 문제가 됨
  • 이 흐름 때문에 '모델 라우팅' 스타트업이 뜨고 있음

    • 모델 라우터는 사용자의 요청 내용을 분석해서 적합한 모델로 보내주는 중간 계층임
    • 기업 지출 관리 플랫폼 램프에 따르면 모델 라우터를 쓰는 기업 비중은 지난해 1%에서 올해 5%로 늘었음
    • 숫자만 보면 아직 작지만, 기업들이 AI 비용을 본격적으로 관리하기 시작했다는 신호로 볼 수 있음
  • 모델맥싱은 한국 개발팀에도 꽤 현실적인 얘기임

    • 사내 챗봇, 코드 리뷰 보조, 고객 문의 분류, 문서 요약처럼 난이도가 다른 작업을 한 모델로 처리하면 비용이 빨리 새어나감
    • 특히 트래픽이 많은 서비스에서 AI 기능을 붙일수록 '모델 성능'보다 '요청당 원가'가 제품 지속 가능성을 좌우할 수 있음
    • 이제 AI 아키텍처 설계에는 프롬프트뿐 아니라 라우팅, 캐싱, 모델 등급, 실패 시 폴백까지 같이 들어가야 함

기술 맥락

  • 모델맥싱의 핵심은 모든 요청을 최고급 대규모 언어 모델(LLM)에 보내지 않는 거예요. 쉬운 분류, 짧은 요약, 반복적인 코드 보조까지 비싼 모델로 처리하면 성능은 좋아 보여도 요청당 비용이 너무 빨리 커지거든요.

  • 그래서 기업들은 요청 앞단에 모델 라우터를 두고, 작업 난이도에 따라 모델을 나누려는 거예요. 간단한 작업은 저렴한 모델이나 오픈소스 모델로 보내고, 긴 추론이나 복잡한 에이전트 조율만 최신 모델에 맡기는 구조죠.

  • 이 선택이 중요한 이유는 AI 수요가 거의 무한에 가깝게 늘어날 수 있기 때문이에요. 코인베이스 CEO가 말한 것처럼 작업의 80%를 99% 더 싼 모델에서 처리할 수 있다면, 같은 예산으로 훨씬 많은 AI 기능을 운영할 수 있어요.

  • 개발팀 입장에서는 모델 라우팅이 단순한 비용 절감 기능이 아니라 아키텍처 레이어가 돼요. 어떤 요청을 어느 모델에 보낼지, 실패하면 어디로 폴백할지, 팀별로 추론 수준을 어떻게 제한할지까지 운영 정책으로 잡아야 하거든요.

AI 도입의 다음 병목은 모델 성능이 아니라 비용 통제임. 개발팀 입장에서는 '어떤 모델이 제일 똑똑한가'보다 '이 작업에 이 모델값을 낼 이유가 있나'가 더 중요한 질문이 되고 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

구글, 메타에 팔던 제미나이 용량도 배분제로 돌렸다

구글이 메타에 제공하던 제미나이 모델 용량을 3월부터 제한했다. 클라우드 AI 수요가 폭증하면서 돈을 더 낸다고 원하는 만큼 연산 자원을 확보할 수 있다는 전제가 흔들리고 있다.

ai-ml

민감한 회의 녹음, 클라우드 안 보내고 PC에서 바로 전사한다

노타가 민감한 회의를 클라우드로 보내지 않고 사용자 PC 안에서 녹음과 음성 전사를 처리하는 데스크톱 기능을 공개했다. 회의 봇을 초대하지 않아도 줌, 구글 미트, 팀즈, 슬랙, 웹엑스 회의를 기록할 수 있고, 법률·금융·고객 상담처럼 데이터 통제가 중요한 환경을 겨냥했다.

ai-ml

AI 에이전트 비용, 이제 토큰 단가보다 ‘어디서 돌리냐’가 문제

AI 모델의 토큰 단가는 내려갔지만, 기업이 실제로 내는 AI 비용은 오히려 커지고 있다는 지적이 나왔다. 특히 자율형 AI 에이전트는 일반 챗봇보다 토큰을 4~15배 더 쓰고, 장기적으로 인프라 부하를 최대 1000배까지 키울 수 있어 로컬 컴퓨팅과 하이브리드 인프라 전략이 중요해지고 있다.

ai-ml

하루 학습으로 공장 투입? 피지컬 AI 스타트업 카본식스에 622억원 몰림

제조업 특화 피지컬 AI 기업 카본식스가 4030만달러, 약 622억원 규모의 시리즈A 투자를 유치했다. 핵심 제품 ‘시그마키트’는 로봇 AI, 전용 네트워크, 그리퍼, 센서, 티칭 도구를 묶어 하루 정도의 작업 학습만으로 제조 공정에 투입할 수 있게 하는 자동화 솔루션이다.

ai-ml

수학 난제 푸는 AI와 전기 먹는 AI, 이제는 ‘어떻게 굴릴지’가 진짜 문제

AI가 장기 추론과 이질적 지식 결합으로 연구 파트너 역할을 할 수 있다는 관점과, 동시에 데이터센터 전력·물 사용이라는 환경 비용이 커지고 있다는 문제의식을 함께 다룬 글이다. 핵심은 AI를 무조건 더 많이 쓰자는 얘기가 아니라, 자율 루프와 정렬, 에너지 절감 설계를 같이 고민해야 한다는 쪽에 가깝다.