---
title: "넷플릭스 엔지니어가 만든 ‘토큰 다이어트’ 도구, LLM 비용을 90%까지 줄인다"
published: 2026-06-01T10:05:03.843Z
canonical: https://jeff.news/article/3576
---
# 넷플릭스 엔지니어가 만든 ‘토큰 다이어트’ 도구, LLM 비용을 90%까지 줄인다

넷플릭스 수석 엔지니어 테자스 초프라가 만든 오픈소스 도구 ‘헤드룸’이 LLM 입력 데이터를 압축해 토큰 비용을 크게 줄이는 방식으로 주목받고 있다. 지금까지 커뮤니티가 아낀 비용은 약 70만 달러, 절감 토큰은 2000억 개 규모로 소개됐다.

## LLM 비용, 프롬프트보다 ‘자동으로 붙는 데이터’가 문제였음

- 넷플릭스 수석 엔지니어 테자스 초프라가 만든 오픈소스 프로젝트 ‘헤드룸(Headroom)’이 LLM 비용 절감 도구로 화제임
  - 오픈소스 서밋에서 소개된 내용에 따르면, 사용자들이 지금까지 아낀 비용은 70만 달러, 한국 돈으로 약 10억 원 수준
  - 절감된 토큰은 2000억 개에 달한다고 함. 숫자만 보면 그냥 프롬프트 압축 팁 수준이 아니라 꽤 큰 운영 최적화 이슈임

- 출발점은 초프라 본인이 개인 프로젝트에서 AI 요금 287달러를 맞은 경험이었음
  - 코드 디버깅, 리팩토링, 데이터베이스 조회에 AI 모델을 붙였는데 생각보다 청구서가 빠르게 커짐
  - 문제를 파보니 사람이 직접 쓴 프롬프트보다 시스템이 자동으로 붙이는 메타데이터가 훨씬 컸다는 얘기

- 초프라의 주장대로라면 LLM에 들어가는 토큰의 최대 90%는 중복 정보거나 굳이 모델에 다 보여줄 필요가 없는 데이터임
  - 불필요하게 복잡한 JSON 스키마
  - 중첩된 API 응답 템플릿
  - 반복되는 데이터베이스 구조 정보
  - 이런 것들이 전부 ‘텍스트’로 모델에 들어가면서 돈을 태우고 있었던 셈

> [!IMPORTANT]
> 2025년 연구 기준으로 AI 시스템의 전체 토큰 소비 중 약 76%가 사용자 입력을 읽는 과정에서 발생한다고 함. 생성보다 입력 관리가 더 큰 비용 문제가 될 수 있다는 포인트임.

## 헤드룸은 모델 앞단에서 토큰을 줄이는 로컬 프록시처럼 동작함

- 헤드룸은 사용자의 컴퓨터에서 프록시 형태로 작동하면서, AI 모델에 데이터가 전달되기 전에 자동으로 압축함
  - 대화 기록만 줄이는 게 아니라 로그 파일, 도구 출력, 데이터베이스 응답, RAG가 찾은 문서 조각까지 본다고 함
  - 즉 “프롬프트 짧게 쓰자”가 아니라 “모델에 들어가는 전체 입력 파이프라인을 정리하자”에 가까움

- 압축 효과가 특히 큰 영역은 기계가 만든 반복 데이터임
  - 서버 로그는 최대 90%까지 줄일 수 있다고 설명됨
  - MCP 도구 출력의 JSON 데이터는 약 70%까지 불필요한 정보를 제거할 수 있다고 함
  - 개발자가 에이전트에 여러 도구를 물려 쓰는 환경일수록 이런 데이터가 계속 쌓이니 효과가 커질 수밖에 없음

- 내부 구조도 꽤 흥미로움. 단순히 문자열 잘라내는 도구가 아님
  - ‘캐시얼라이너(CacheAligner)’는 기존 입력과 비교해 실제 변경된 부분만 모델에 전달함
  - 코드, JSON, 웹 데이터처럼 콘텐츠 유형에 따라 다른 압축기를 적용함
  - ‘스쿼셔(Squasher)’는 모델이 원본 데이터를 다시 요청하는 빈도를 학습해서 압축 강도를 조정함

- 핵심은 ‘가역 압축(Reversible Compression)’임
  - 헤드룸은 데이터를 그냥 삭제하지 않고, 압축된 위치를 표시하고 원본은 따로 저장함
  - 모델이 필요하다고 판단하면 원본 데이터를 다시 불러올 수 있음
  - 그래서 비용만 줄이다가 정확도까지 같이 날려먹는 상황을 피하려는 설계임

## 토큰을 줄이면 비용 말고도 얻는 게 있음

- 너무 긴 컨텍스트가 모델 성능을 떨어뜨릴 수 있다는 연구도 같이 언급됨
  - 스탠퍼드 연구진은 모델이 긴 문맥에서 앞부분과 뒷부분에 집중하고, 중간 부분은 상대적으로 무시하는 경향을 발견함
  - 크로마(Chroma) 연구진은 18개 주요 LLM을 분석했고, 입력 길이가 길어질수록 성능 신뢰도가 떨어지는 현상을 ‘컨텍스트 부패(Context Rot)’라고 불렀음

- 토큰 감소는 응답 속도에도 직결됨
  - 한 기업은 음성 기반 AI 서비스에 헤드룸을 적용해 지연 시간을 줄이고 있다고 함
  - 음성 서비스에서는 침묵 구간조차 토큰으로 처리될 수 있어서, 수백 밀리초 차이가 사용자 경험에 바로 꽂힘

- 데이터센터 전력 소비까지 생각하면 토큰 최적화는 점점 더 큰 운영 이슈가 될 가능성이 큼
  - 처리할 토큰이 줄면 연산량도 줄고, 그만큼 전력 소비도 줄어듦
  - AI 사용량이 폭증하는 상황에서는 ‘토큰 다이어트’가 비용 최적화를 넘어 인프라 최적화 주제로 커질 수 있음

- 아직 남은 숙제도 있음
  - 정확성 검증이 더 필요하고, 오디오·영상 데이터 지원도 개선 과제로 남아 있음
  - 그래도 출시 반년 만에 깃허브 별 2000개 이상, 포크 120회 이상이면 개발자들이 실제로 찔리는 지점이 있다는 신호로 보임

---

## 기술 맥락

- 헤드룸이 건드리는 지점은 모델이 아니라 모델 앞단이에요. 요즘 AI 앱은 사용자 프롬프트만 모델에 보내는 게 아니라 로그, 검색 결과, 도구 호출 결과, 데이터베이스 스키마까지 잔뜩 붙이거든요. 그래서 모델 성능보다 입력 정리가 먼저 비용 병목이 되는 상황이 생겨요.

- 가역 압축을 고른 이유도 여기서 중요해요. 그냥 데이터를 삭제하면 토큰은 줄지만 모델이 필요한 단서를 잃을 수 있어요. 헤드룸은 원본을 따로 보관해두고 필요할 때 다시 가져오는 방식이라, 비용을 줄이면서도 정확도 리스크를 낮추려는 설계에 가까워요.

- CacheAligner 같은 방식은 특히 반복 호출이 많은 에이전트 환경에서 효과가 커요. 매번 전체 컨텍스트를 다시 보내는 대신 바뀐 부분만 보내면, 같은 작업을 여러 단계로 나눠 처리하는 워크플로에서 토큰 낭비가 크게 줄어들거든요.

- 한국 개발팀 입장에서는 LLM 모델 선택만큼이나 입력 데이터 설계가 중요해졌다는 신호로 보면 돼요. 사내 문서 검색, 운영 로그 분석, 코드 에이전트 같은 기능을 붙일 때 “무엇을 얼마나 모델에 넣을지”를 설계하지 않으면 사용량이 늘어나는 순간 비용이 바로 튈 수 있어요.

## 핵심 포인트

- LLM에 들어가는 입력 토큰의 최대 90%가 중복 정보나 불필요한 데이터일 수 있다는 문제의식에서 출발
- 헤드룸은 로컬 프록시처럼 동작하며 로그, JSON, 도구 출력, RAG 문서 조각 등을 모델에 보내기 전에 압축
- 가역 압축 방식이라 모델이 필요하면 원본 데이터를 다시 불러올 수 있게 설계
- 서버 로그는 최대 90%, MCP 도구 출력 JSON은 약 70%까지 줄일 수 있다고 소개

## 인사이트

AI 비용 최적화가 이제 프롬프트 몇 줄 줄이는 수준을 넘어, 모델 앞단의 데이터 파이프라인 설계 문제가 되고 있음. 특히 에이전트와 도구 호출이 늘수록 ‘무엇을 모델에 넣을 것인가’가 곧 비용, 속도, 정확도를 좌우하게 될 가능성이 큼.
