---
title: "prompt-refiner: LLM 프롬프트 토큰을 자동으로 줄여주는 경량 라이브러리"
published: 2025-12-17T22:40:09.000Z
canonical: https://jeff.news/article/962
---
# prompt-refiner: LLM 프롬프트 토큰을 자동으로 줄여주는 경량 라이브러리

AI 에이전트와 RAG 앱의 프롬프트를 자동 최적화하는 Python 라이브러리. 함수 호출 스키마 평균 57% 토큰 감소, RAG 컨텍스트 5~15% 감소를 달성하며 레이턴시 오버헤드는 0.5% 미만.

- **prompt-refiner**는 AI 에이전트, RAG 앱, 챗봇용 프롬프트를 자동으로 최적화해서 토큰 사용량을 줄여주는 Python 라이브러리임. API 비용 **5~70% 절감**을 목표로 하고, 함수 호출(function calling) 스키마에서는 평균 **57% 감소**를 달성했다고 함

- 모듈 구성이 깔끔함:
  - **Cleaner**: HTML 제거, 공백 정규화, 유니코드 수정, JSON 정리
  - **Compressor**: 토큰 단위 자르기, 중복 제거
  - **Scrubber**: PII(이메일, 전화번호, 카드번호 등) 삭제
  - **Tools**: AI 에이전트 함수 스키마 및 응답 압축
  - **Packer**: 우선순위 기반 메시지 조합
  - `|` 연산자로 파이프라인 체이닝이 가능

## 벤치마크 수치가 꽤 인상적임

- **함수 호출 스키마 압축**: Stripe, Salesforce, HubSpot, Slack, OpenAI, Anthropic 등 실제 운영 API 스키마 20개로 테스트. 평균 **56.9% 감소**(15,342 토큰 절약). 100% 무손실 압축이라 프로토콜 필수 필드(name, type, required, enum)는 전부 보존됨

- 압축된 20개 스키마 전부 OpenAI 함수 호출에서 정상 동작 확인됨. 60%(12/20)는 원본과 완전히 동일한 인자 생성, 40%(8/20)는 다르지만 유효한 결과. HubSpot, Salesforce 같은 엔터프라이즈 API는 **70% 이상** 감소

- **RAG 컨텍스트 압축**: SQuAD + RAG 시나리오 30개 테스트. Standard 전략은 5% 감소에 코사인 유사도 98.4%, Aggressive 전략은 15% 감소에 96.4% 유사도 유지

> [!TIP]
> 비용 감각: 중간 규모 에이전트(도구 10개, 일 500회 호출) 기준 SchemaCompressor만으로 월 $541 절약. RAG는 월 100만 토큰 기준 GPT-4에서 월 $54 절약

- 레이턴시 오버헤드는 거의 없음. Minimal 전략 기준 1k 토큰당 **0.05ms**. 네트워크 + LLM TTFT가 보통 600ms 이상인 걸 감안하면 0.5% 미만의 오버헤드임. MIT 라이선스

## 핵심 포인트

- 함수 호출 스키마 평균 56.9% 토큰 감소 (20개 실제 API 테스트)
- 100% 무손실 압축, 20/20 스키마 정상 동작 확인
- RAG Standard 전략 5% 감소에 98.4% 코사인 유사도
- 레이턴시 오버헤드 1k 토큰당 0.05~0.25ms

## 인사이트

API 비용 최적화에 관심 있는 팀이라면 바로 붙여볼 수 있는 수준의 라이브러리. 특히 도구 10개 이상인 에이전트에서 효과가 클 듯.
