본문으로 건너뛰기
피드

Anthropic, Claude Code 프롬프트 캐시 TTL을 슬쩍 1시간→5분으로 되돌린 정황 포착

devops 약 6분
vote
0
댓글
북마크

한 사용자가 12만 건의 API 호출 로그를 분석한 결과, Anthropic이 2026년 3월 초 Claude Code의 캐시 TTL을 1시간에서 5분으로 조용히 되돌린 것으로 보인다. 이로 인해 캐시 재생성 비용이 20~32% 증가했고, 구독 사용자들의 할당량 소진 속도도 급격히 빨라졌다.

  • 1

    2월 한 달간 1시간 TTL이 기본값이었으나 3월 6일경부터 5분 TTL로 회귀

  • 2

    Sonnet 기준 약 $949, Opus 기준 약 $1,582의 추가 비용 발생

  • 3

    5분 TTL에서는 잠깐의 휴식만으로도 전체 컨텍스트를 write 비용(read의 12.5배)으로 재전송

  • 4

    Pro/Max 구독자들이 3월부터 처음으로 5시간 할당량 한도에 도달하기 시작

  • Anthropic이 Claude Code의 프롬프트 캐시 TTL을 1시간에서 5분으로 슬쩍 되돌린 정황이 포착됨
    • 한 사용자가 2026년 1월~4월까지 약 12만 건의 API 호출 로그(JSONL)를 분석해서 밝혀냄
    • 리눅스 워크스테이션 + 윈도우 노트북, 서로 다른 계정 2대에서 동일한 패턴 확인 — 클라이언트 문제가 아니라 서버사이드 변경

중요

> 2월에는 캐시 낭비율이 1.1%였는데, 3월 TTL 변경 이후 25.9%로 급등했음. Sonnet 기준 약 $949, Opus 기준 약 $1,582가 불필요하게 더 지출된 셈.

타임라인으로 보는 TTL 변화

  • 1월 (Phase 1): 5분 TTL만 존재 — 아마 1시간 TTL 티어 자체가 API에 없던 시기
  • 2월 1일 ~ 3월 5일 (Phase 2): 1시간 TTL로 완전히 전환됨
    • 33일 연속, 두 대 머신 모두에서 5분 토큰이 0 — 노이즈가 아니라 의도적인 설정
    • 이 기간 비용 낭비율 1.1%로 사실상 제로
  • 3월 6~7일 (Transition): 5분 토큰이 다시 나타나기 시작
  • 3월 8일 이후 (Phase 4): 5분 TTL이 다시 지배적 — 3월 22일 하루에만 3천만 토큰이 5분 티어로 기록됨

5분 TTL이 이렇게 비싼 이유

  • 5분 TTL이면 코딩 중 잠깐 5분만 쉬어도 캐시가 전부 만료됨
    • 다음 턴에서 전체 컨텍스트를 cache_write 비용으로 다시 올려야 함
    • write 비용은 read의 12.5배 — Sonnet 기준 $3.75/MTok vs $0.30/MTok
  • 세션이 길고 컨텍스트가 클수록 패널티가 복리로 누적됨
    • 분석 기간 동안 2.2억 토큰이 5분 티어에 write 되었고, 그 토큰들이 57억 번 cache read에 사용됨
    • 1시간 TTL이었으면 대부분이 저렴한 read로 처리됐을 금액

구독 사용자 할당량(Quota)에도 직격탄

  • cache write 토큰은 할당량에 정가로 차감되는 반면, cache read는 훨씬 싸게 카운트됨
    • 3월 이후 처음으로 5시간 할당량 한도에 도달하는 구독자가 속출
    • 이슈 작성자 본인도 2026년 3월 전까지는 한 번도 할당량 한도를 쳐본 적이 없었음
  • Pro/Max 사용자들이 "갑자기 쿼터가 너무 빨리 소진된다"는 불만이 이 시점과 정확히 일치

작성자의 요청사항

  • Anthropic에 TTL 변경 여부 공식 확인/부인 요청
  • 5분이 의도된 기본값인지, 1시간이 영구적 의도였는지 명확한 답변 요구
  • 1시간 TTL 복원 또는 사용자 설정 가능한 옵션으로 노출 제안
  • cache_read 토큰의 할당량 카운팅 방식 공개 요청

💡

> Claude Code 비용이 3월부터 갑자기 늘었다면, 이 TTL 변경이 원인일 가능성이 높음. 세션 JSONL 파일의 ephemeral_5m_input_tokens / ephemeral_1h_input_tokens 값을 확인해보면 본인 계정의 영향도를 파악할 수 있음.


기술 맥락

  • 프롬프트 캐시(Prompt Cache)는 LLM API 호출 시 시스템 프롬프트나 이전 대화 컨텍스트를 서버에 일정 시간 저장해두는 기능이에요. 매번 전체 토큰을 새로 보내는 대신 캐시된 부분은 저렴한 read 비용만 내면 되거든요.
  • TTL(Time To Live)은 이 캐시가 얼마나 오래 살아있느냐의 문제인데, Claude Code처럼 긴 코딩 세션에서는 이게 치명적이에요. 코드 리뷰하다 커피 한 잔 마시고 오면 5분은 금방 지나거든요. 그 사이에 캐시가 만료되면 수만 토큰의 컨텍스트를 write 비용(read의 12.5배)으로 다시 올려야 해요.
  • 이 이슈가 흥미로운 건 분석 방법론이에요. Claude Code가 ~/.claude/projects/ 아래 JSONL 파일에 모든 API 호출 메타데이터를 남기는데, 여기에 캐시 티어별 토큰 사용량이 기록되거든요. 두 대의 독립된 머신에서 동일한 패턴을 확인함으로써 클라이언트 문제가 아닌 서버사이드 변경임을 입증한 게 깔끔해요.
  • 할당량(Quota) 이슈도 연결되어 있어요. Pro/Max 구독은 비용이 아니라 할당량으로 제한되는데, cache write가 정가로 차감되니까 TTL이 짧아지면 같은 작업을 해도 할당량이 훨씬 빨리 소진돼요. "갑자기 쿼터가 빨리 닳는다"는 불만의 근본 원인이 여기 있었던 거예요.

Claude Code 사용자라면 3월 이후 비용 급증의 원인을 알 수 있는 핵심 분석. 서버사이드 설정 변경 하나가 사용자 비용에 미치는 영향을 데이터로 입증한 좋은 사례임.

댓글

댓글

댓글을 불러오는 중...

devops

포드가 AI 데이터센터 붐 수혜주로 뜬 이유는 자동차가 아니라 ESS였다

포드의 에너지 저장 사업이 AI 데이터센터 건설 붐을 타고 새 성장축으로 주목받고 있어. 전기차 수요 둔화로 남는 배터리 생산능력을 데이터센터·전력망용 ESS로 돌리는 전략이고, EDF 북미 사업체에 2028년부터 연간 4기가와트시 규모 공급 계약까지 체결했어.

devops

클라우드 빅3 차별화 논쟁, 정작 컴퓨트·스토리지는 거의 범용재가 됐다는 얘기

클라우드 업체들은 인공지능, 데이터베이스, 전용 서비스로 차별화를 강조하지만, 대부분의 기업 워크로드는 여전히 컴퓨트와 스토리지 위에서 돌아간다는 주장이다. AWS, 애저, 구글 클라우드의 핵심 인프라는 성숙도가 높아져 실질 역량 차이가 줄었고, 아키텍트는 브랜드보다 워크로드 적합성·비용·거버넌스·운영 정합성을 봐야 한다는 내용이다.

devops

DynIP, RFC 2136·IPv6·DNSSEC 지원하는 동적 DNS 서비스 공개

DynIP는 홈랩, 엣지 라우터, 인프라 팀을 겨냥한 동적 DNS(DDNS) 서비스다. 60초 안팎의 전파, RFC 2136 TSIG 기반 라우터 업데이트, 개인 도메인 연결, IPv6와 DNSSEC 지원을 핵심 기능으로 내세운다.

devops

깃허브 액션, 내부 데이터베이스 마이그레이션 여파로 4시간 지연

깃허브에서 2026년 5월 12일 13:41부터 17:43 협정세계시까지 일부 서비스 처리 지연이 발생했음. 내부 데이터베이스 마이그레이션으로 복제 지연이 생겼고, 작업 큐에 쌓이는 요청을 처리할 워커가 부족해진 게 원인이었음.

devops

AI 강국 경쟁, 결국 전기와 데이터센터 싸움으로 간다

AI 경쟁의 핵심이 모델과 반도체만이 아니라 안정적인 전력 확보로 이동하고 있다는 분석이야. 글로벌 데이터센터 전력 사용량은 2024년 400TWh에서 2030년 800TWh, 2050년 3500TWh 이상으로 커질 전망이고, 한국도 AI 데이터센터와 에너지 전략을 같이 설계해야 하는 상황이야.