---
title: "AI 에이전트 비용, 이제 토큰 단가보다 ‘어디서 돌리냐’가 문제"
published: 2026-07-05T21:00:04.732Z
canonical: https://jeff.news/article/4667
---
# AI 에이전트 비용, 이제 토큰 단가보다 ‘어디서 돌리냐’가 문제

AI 모델의 토큰 단가는 내려갔지만, 기업이 실제로 내는 AI 비용은 오히려 커지고 있다는 지적이 나왔다. 특히 자율형 AI 에이전트는 일반 챗봇보다 토큰을 4~15배 더 쓰고, 장기적으로 인프라 부하를 최대 1000배까지 키울 수 있어 로컬 컴퓨팅과 하이브리드 인프라 전략이 중요해지고 있다.

- AI 토큰 단가는 내려갔는데, 기업의 전체 AI 비용은 오히려 올라가는 중임
  - 2023년 이후 모델 업체 경쟁으로 토큰당 가격은 크게 떨어졌지만, 실제 사용량 증가가 가격 하락을 압도하고 있음
  - 이제 토큰은 그냥 기술 단위가 아니라, 기업이 관리해야 하는 비용 자산에 가까워졌다는 얘기임

- 핵심 변수는 자율형 AI 에이전트임
  - 일반 챗봇은 사용자가 묻고 모델이 답하면 끝나는 단일 턴 구조라 토큰 사용량을 어느 정도 예측할 수 있음
  - 반면 AI 에이전트는 의도 분석, 데이터 검색, 문맥 로딩, 내부 도구 호출, 재추론, 후속 액션을 스스로 이어 붙임
  - 이 루프가 반복되면 프롬프트 하나가 생각보다 훨씬 비싼 작업으로 커질 수 있음

> [!IMPORTANT]
> 시그널65 분석에 따르면 상시 작동하는 에이전틱 워크로드는 일반 챗봇 상호작용보다 최소 4배, 최대 15배 많은 토큰을 소비함.

- 더 무서운 건 인프라 부하가 장기적으로 확 튈 수 있다는 점임
  - 보고서는 자율 에이전트가 업무 전반에 퍼지면 지속적인 추론 수요 때문에 인프라 부하가 기존 추론 중심 AI 대비 최대 1000배까지 늘 수 있다고 봄
  - 퍼블릭 클라우드 API에 토큰당 과금으로만 의존하면, 비용 예측이 거의 가챠처럼 변할 수 있음

- 델이 꺼낸 해법은 “모든 걸 클라우드에서 돌리지 말자”에 가까움
  - 트래픽이 크게 출렁이거나 일시적으로 거대한 연산이 필요한 작업은 여전히 클라우드 API가 유리함
  - 하지만 매일 반복되고 상시 작동하는 사내 에이전트 업무는 온프레미스, 워크스테이션, 로컬 장비에서 처리하는 쪽이 장기 비용을 줄일 수 있음

- 제프 클라크 델 최고운영책임자는 AI 토큰이 데이터와 가까운 곳에서 만들어져야 한다고 강조함
  - 기업 데이터 대부분은 클라우드가 아니라 온프레미스와 엣지에 있다는 논리임
  - 결국 AI가 실행될 위치도 데이터가 있는 곳에 가까워야 비용, 지연 시간, 통제권을 같이 잡을 수 있다는 주장임

- 개발팀 입장에선 모델 선택만큼 실행 위치 선택이 중요해지는 흐름임
  - 어떤 워크로드는 클라우드 API로 빠르게 붙이는 게 맞고, 어떤 워크로드는 로컬 추론 인프라를 잡아야 함
  - 특히 사내 검색, 고객 상담, 문서 처리, 반복 리서치 에이전트처럼 계속 도는 작업은 토큰 예산과 루프 제한을 설계 단계에서 걸어야 함

---

## 기술 맥락

- 여기서 말하는 선택은 “AI를 쓸까 말까”가 아니라 “추론을 어디서 실행할까”예요. 클라우드 API는 시작이 빠르고 확장성이 좋지만, 에이전트가 계속 루프를 돌면 토큰 과금이 누적되거든요.

- 델이 로컬 컴퓨팅을 강조하는 이유는 반복 워크로드 때문이에요. 매일 비슷한 사내 데이터를 읽고, 도구를 호출하고, 결과를 정리하는 에이전트라면 요청마다 외부 API 비용을 내는 구조가 장기적으로 부담이 커져요.

- 그렇다고 클라우드를 버리자는 얘기는 아니에요. 일시적으로 큰 연산이 필요하거나 트래픽이 예측 불가능한 작업은 클라우드가 여전히 잘 맞고, 고정적으로 도는 내부 업무는 온프레미스나 워크스테이션으로 빼는 하이브리드 구조가 현실적인 선택이에요.

- 개발 조직이 봐야 할 지점은 토큰 제한, 재시도 제한, 도구 호출 제한 같은 운영 가드레일이에요. 에이전트는 한 번의 요청처럼 보여도 내부에서는 여러 번 추론하니까, 비용 제어를 코드와 인프라 양쪽에서 같이 잡아야 해요.

## 핵심 포인트

- 자율형 AI 에이전트는 단일 응답이 아니라 검색, 문맥 로딩, 도구 호출, 재추론을 반복하면서 토큰 사용량이 크게 튄다
- 시그널65 보고서는 에이전틱 워크로드가 일반 챗봇보다 최소 4배, 최대 15배 많은 토큰을 소비한다고 분석했다
- 델은 반복적이고 상시적인 AI 추론은 클라우드보다 온프레미스나 워크스테이션 같은 로컬 인프라에서 처리하는 쪽이 경제적이라고 본다

## 인사이트

AI 도입 논의가 모델 성능에서 비용 구조로 넘어가는 흐름이 꽤 선명하다. 개발팀 입장에선 ‘어떤 모델을 쓸까’만큼이나 ‘이 추론을 어디서 돌릴까’를 아키텍처 의사결정으로 다뤄야 할 타이밍이다.