---
title: "AI 도입률 KPI로 토큰 사용량을 잡으면 생기는 일"
published: 2026-06-29T07:05:01.574Z
canonical: https://jeff.news/article/4360
---
# AI 도입률 KPI로 토큰 사용량을 잡으면 생기는 일

생성형 AI 도입 초기에 토큰 사용량은 직원들이 AI를 쓰는지 확인하는 지표로 쓸 수 있다. 하지만 이걸 핵심 KPI로 만들면 직원들이 성과가 아니라 토큰 소비를 늘리는 쪽으로 움직이고, 비용과 ROI가 망가질 수 있다는 경고다.

- 생성형 AI 도입률을 올리겠다고 ‘토큰 사용량’을 KPI로 잡으면 꽤 위험한 일이 벌어질 수 있음
  - 토큰은 생성형 AI가 텍스트를 읽고 쓰는 기본 단위라서 측정이 쉽고, 비용과도 바로 연결됨
  - 그래서 기업들이 “우리 직원들이 AI를 얼마나 쓰나?”를 보려고 토큰 소비량을 보기 시작함
  - 문제는 이 숫자가 성과를 말해주진 않는다는 점임

- 업계에서는 이런 현상을 ‘토큰맥싱(Tokenmaxxing)’이라고 부르기 시작함
  - 업무 성과를 높이려고 AI를 쓰는 게 아니라, 단순히 더 많은 토큰을 태우려고 AI를 과하게 쓰는 행동을 뜻함
  - 일부 기업은 사내 리더보드까지 운영하면서 직원 간 AI 활용 경쟁을 유도한 것으로 알려짐
  - 아마존, JP모건, 메타, 디즈니 같은 기업 사례가 언급됨

> [!WARNING]
> 디즈니 직원 한 명이 9일 동안 Claude AI를 46만 회 이상 호출한 사례가 나옴. 이 정도면 “AI 활용 우수 사례”가 아니라 비용 알람이 먼저 울릴 상황임.

- 토큰 사용량은 도입 초기에만 쓸 만한 지표임
  - AI 분석 기업 펜도의 토드 올슨 CEO는 토큰 사용량이 “AI를 아예 쓰는지” 확인하는 초기 지표로는 의미가 있다고 봄
  - 토큰 사용량이 0이면 그 직원은 AI에서 아무 가치도 얻지 못하고 있을 가능성이 높기 때문임
  - 하지만 조직 전체가 AI를 쓰기 시작한 뒤에는 “얼마나 썼나”보다 “어떻게 썼나”가 훨씬 중요해짐

- 잘못된 KPI는 사람 행동을 너무 쉽게 왜곡함
  - 킨드릴의 로건 울프는 토큰 사용량을 생산성의 대리 지표로 쓰는 게 과거 ‘코드 라인 수’ 평가와 닮았다고 지적함
  - 코드 줄 수를 성과로 보면 개발자는 좋은 소프트웨어가 아니라 긴 코드를 만들게 됨
  - 토큰도 똑같아서, 사용량이 KPI가 되면 직원은 품질이나 효율보다 소비량을 늘리는 쪽으로 움직일 수 있음

- 비용 문제는 여기서 바로 터짐
  - 최신 대규모 언어 모델(LLM)은 성능이 좋은 만큼 연산 비용이 비쌈
  - 간단한 문서 요약도 저렴한 모델이나 자동화 도구로 충분한데, KPI 때문에 고성능 모델을 불필요하게 쓰는 상황이 생길 수 있음
  - 데이터센터 운영비와 에너지 비용까지 올라가는 상황이라, 대규모 조직에서는 토큰 증가가 곧 운영비 증가로 이어짐

- 개발 조직에서는 특히 더 조심해야 함
  - AI 코딩 도구 사용량이나 생성 코드량을 성과로 보면, 실제 운영에 반영되지 못하는 코드가 늘 수 있음
  - 더 나쁘게는 보안 취약점이나 버그가 섞인 코드가 배포될 위험도 커짐
  - 개발 생산성은 “얼마나 많이 생성했나”가 아니라 “검증된 코드가 얼마나 안정적으로 서비스에 들어갔나”로 봐야 함

- 결국 AI 성과 측정은 사용량 중심에서 성과 중심으로 바뀌어야 함
  - 토큰 사용량은 참고 지표로 남기되, 업무 결과물·품질·비용 효율성·프로세스 개선 효과를 같이 봐야 함
  - AI가 만든 결과물이 실제 비즈니스 프로세스 개선이나 고객 가치로 이어졌는지도 확인해야 함
  - 많이 쓰는 조직이 아니라, 제대로 써서 성과로 연결하는 조직이 이긴다는 얘기임

---
## 기술 맥락

- 토큰 사용량을 KPI로 삼는 건 측정이 쉬워서예요. 생성형 AI 플랫폼은 입력과 출력 토큰을 자동으로 기록하니까, 별도 분석 시스템 없이도 대시보드 숫자를 만들 수 있거든요.

- 그런데 쉬운 지표가 좋은 지표는 아니에요. 토큰은 사용 여부를 보여주지만, 업무 시간이 줄었는지, 코드 품질이 좋아졌는지, 고객 대응이 빨라졌는지는 직접 말해주지 못해요.

- 개발팀에서는 이 문제가 더 크게 터져요. AI가 코드를 많이 뽑아내도 리뷰를 통과하지 못하거나 운영에 반영되지 않으면 생산성이 아니라 대기열과 리스크만 늘어난 거거든요.

- 그래서 AI 거버넌스는 모델 호출량, 모델 비용, 결과물 품질, 운영 반영률을 같이 봐야 해요. 특히 고비용 모델을 꼭 써야 하는 작업과 저렴한 모델로 충분한 작업을 나누지 않으면, 도입률은 올라가는데 ROI는 떨어지는 이상한 그림이 나와요.

## 핵심 포인트

- 토큰 사용량은 AI 사용 여부를 보는 선행 지표일 뿐 성과 지표가 아님
- 토큰 소비를 KPI로 삼으면 불필요한 AI 호출과 고비용 모델 사용이 늘어날 수 있음
- 디즈니 직원이 9일 동안 Claude를 46만 회 이상 호출한 사례가 언급됨
- 개발 조직에서는 생성 코드량보다 운영 반영 가치와 품질을 봐야 함

## 인사이트

AI 도입률을 올리고 싶은 조직일수록 측정 가능한 숫자에 끌리기 쉽다. 그런데 토큰은 ‘쓰기 쉬운 지표’일 뿐 ‘좋은 지표’는 아니라서, 개발 조직에서는 예전의 코드 라인 수 평가 같은 부작용이 그대로 재현될 수 있다.
