본문으로 건너뛰기
피드

중국 AI 모델, 100만 토큰 0.1달러까지 내려가며 가격 전쟁 격화

ai-ml 약 8분

중국 AI 모델들이 100만 토큰당 입력 단가를 0.10~0.14달러 수준까지 낮추며 OpenAI·Anthropic 같은 미국 프리미엄 모델과 최대 170배 격차를 만들고 있다. 저가 API와 오픈소스 전략은 글로벌 개발자 수요를 빨아들이고 있지만, 스타트업 수익성·서비스 품질·지속 가능성에는 꽤 큰 압박을 주고 있다.

  • 1

    중국 내 200여 개 LLM이 출혈 경쟁을 벌이며 토큰 가격을 극단적으로 낮추는 중

  • 2

    OpenAI·Anthropic 최신 모델은 입력 100만 토큰당 약 3달러, 중국 주요 모델은 0.10~0.14달러 수준

  • 3

    AI 에이전트 확산으로 토큰 사용량이 폭증하면서 저가 중국 모델 수요가 커지고 있음

  • 4

    저가 경쟁은 스타트업의 구독 모델과 품질 안정성을 동시에 흔들고 있음

  • 5

    텐센트는 단순 토큰 판매보다 AI 에이전트·클라우드 솔루션으로 가야 한다고 보는 중

중국 AI 가격 전쟁이 꽤 살벌한 수준까지 내려옴

  • 중국 AI 모델 가격이 이제 “싸다” 정도가 아니라, 미국 최상위 모델과 비교하면 아예 다른 시장처럼 보이는 수준까지 내려감

    • 샤오미 AI 모델 ‘미모’는 100만 입력 토큰당 0.10달러, 약 148원 수준
    • OpenAI·Anthropic 최신 모델은 100만 입력 토큰당 약 3달러, 출력은 약 15달러 수준
    • 중국 주요 모델과 미국 빅테크 최상위 모델 간 가격 차이는 적게는 30배, 많게는 170배까지 벌어짐
  • 이 가격 전쟁의 출발점은 2024년 5월 딥시크-V2였음

    • 딥시크는 100만 토큰당 1위안, 약 220원이라는 가격을 내놨고 기존 GPT 계열 대비 수십~수백 배 저렴했음
    • 이후 바이두, 바이트댄스, 알리바바, 텐센트까지 줄줄이 가격을 80~97% 내리거나 무료 정책을 내놓음
    • 중국 안에만 200개 넘는 대규모 언어 모델(LLM)이 난립하면서, 점유율 확보를 위한 출혈 경쟁이 된 셈

중요

> 오픈라우터의 5월 4~8일 트래픽 기준 상위 10개 AI 모델 중 중국 모델이 5개였고, 텐센트 ‘Hy.3’는 1주일간 3조7400억 토큰으로 1위에 올랐음.

왜 이렇게까지 싸게 파나

  • 중국 업체들의 전략은 단순함. 일단 개발자와 기업을 최대한 빨리 끌어들이겠다는 것

    • 오픈소스 모델과 저가 API를 뿌려서 글로벌 개발자 생태계에 먼저 깔리는 게 목표
    • 당장 수익을 포기하더라도 사용량과 점유율을 확보하는 박리다매 전략에 가까움
    • 특히 AI 에이전트처럼 토큰을 엄청나게 많이 쓰는 서비스가 늘면서, 저가 모델의 매력이 확 커짐
  • 중국 정부 보조금도 가격 인하를 가능하게 만드는 핵심 배경임

    • 중국은 AI 연산 능력, 즉 컴퓨팅 파워를 국가 핵심 프로젝트로 보고 데이터센터 전기요금 등을 지원함
    • 화웨이·캠브리콘 같은 중국산 AI 반도체를 쓰면 전력 비용의 절반을 정부가 대납하는 식의 지원책도 거론됨
    • 반대로 미국 빅테크는 엔비디아 최신 GPU와 대규모 데이터센터에 천문학적 자본을 투입했기 때문에 API 가격을 쉽게 무너뜨리기 어려움
  • 그래서 양쪽의 비즈니스 모델이 갈라짐

    • 미국 쪽은 고성능 프리미엄 모델 가격을 유지하며 인프라 투자비를 회수해야 함
    • 중국 쪽은 가격을 무너뜨려 사용량과 생태계를 먼저 가져가려 함
    • 개발자 입장에서는 “성능이 충분하면 싼 쪽으로 붙자”는 유인이 커질 수밖에 없음

싸면 무조건 좋은가? 여기서부터 문제가 생김

  • 가장 먼저 타격을 받는 쪽은 AI 스타트업임

    • 빅테크와 대기업이 자본을 태워 가격을 내리면, 자체 인프라가 약한 스타트업은 같은 게임을 하기 어려움
    • 오픈소스 모델 확산으로 모델 자체의 차별화 가치도 빠르게 낮아지는 중
    • 에이전트형 AI 도입으로 토큰 사용량은 늘어나는데, 원가는 고정되거나 오히려 커지는 구조가 됨
  • 월정액 무제한이나 고용량 구독 모델도 역설적으로 위험해짐

    • 스타트업은 안정적인 매출을 만들려고 구독제를 도입하지만, 소수 헤비유저가 한 달에 수억 개 토큰을 쓰면 수익 구조가 깨질 수 있음
    • 브랜드 충성도가 낮으면 종량제로 바꾸기도 어렵고, 빅테크처럼 과금 정책을 유연하게 바꾸기도 쉽지 않음
    • 결국 “많이 쓰게 만들수록 손해”라는 이상한 상황이 나올 수 있음

⚠️주의

> 토큰 단가만 보고 모델을 고르면 응답 지연, 출력 제한, 타임아웃 같은 운영 문제가 뒤늦게 터질 수 있음. 인터랙티브 제품에서는 싼 모델보다 안정적인 처리량이 더 중요할 때가 많음.

품질과 지속 가능성의 벽

  • 같은 돈으로 더 많은 트래픽을 돌리다 보니 품질 저하 이슈도 따라옴

    • 정확도, 일관성, 속도, 안정성이 모두 흔들릴 수 있음
    • 분당 토큰(TPM), 분당 요청(RPM), 동시 요청 수를 제한하면 출력 제한과 타임아웃이 늘어남
    • 챗봇, 코딩 어시스턴트, 고객센터 자동화처럼 즉시성이 중요한 제품에서는 응답 끊김 자체가 치명적임
  • 텐센트 리창 부사장은 토큰 판매만으로는 점착성 있는 비즈니스가 아니라고 봄

    • 더 싼 경쟁사가 나오면 고객이 바로 옮겨갈 수 있기 때문
    • 그는 토큰을 자동차 연료에 비유하면서, 연료를 많이 파는 것보다 엔진, 즉 AI 모델 아키텍처 효율이 중요하다고 지적함
    • 적은 토큰으로 좋은 결과를 내는 모델이 결국 사용자 비용을 낮춘다는 얘기임
  • 텐센트가 가려는 방향도 이 지점에서 나옴

    • 단순 토큰 인프라 제공자가 아니라 AI 에이전트·클라우드 솔루션 공급자가 되겠다는 전략
    • 자체 모델 ‘훈위안(Hunyuan)’ 기반 지능형 에이전트 개발 플랫폼을 B2B 클라우드로 제공 중
    • 기업 고객이 자사 데이터를 붙여 고객 서비스, 마케팅, 코딩 지원에 바로 쓰게 만드는 방식임

기술 맥락

  • 이번 이슈의 핵심은 “어떤 모델이 더 똑똑하냐”보다 “AI 모델을 어떤 원가 구조로 서비스할 수 있느냐”에 가까워요. 토큰 단가가 30~170배 차이 나면 같은 기능이라도 제품 마진이 완전히 달라지거든요.

  • AI 에이전트가 중요하게 언급되는 이유는 사용량 패턴이 다르기 때문이에요. 일반 챗봇은 질문과 답변 한두 번으로 끝날 수 있지만, 에이전트는 계획, 검색, 도구 호출, 검증을 반복해서 토큰을 계속 태워요. 그래서 모델 단가가 제품 설계의 제약조건이 돼요.

  • 중국 업체들이 저가 API와 오픈소스를 밀어붙이는 건 후발주자로서 생태계를 빨리 잡기 위한 선택이에요. 개발자가 한 번 SDK, API, 워크플로우를 붙이면 이후 모델 교체 비용이 생기니까, 초반에는 수익보다 사용량을 보는 거죠.

  • 다만 운영팀 입장에서는 가격표만 보면 안 돼요. 분당 요청 수, 동시 처리량, 타임아웃, 출력 안정성 같은 제한이 실제 사용자 경험을 좌우하거든요. 특히 고객 응대나 코딩 도우미처럼 실시간성이 중요한 제품은 싼 모델을 붙였다가 장애 비용이 더 커질 수 있어요.

AI API 가격이 싸지는 건 개발자 입장에선 당장 좋지만, 이 정도 덤핑이면 모델 품질·장애 대응·벤더 지속성까지 같이 봐야 한다. 특히 에이전트처럼 토큰을 미친 듯이 태우는 워크로드는 단가만 보고 붙였다가 나중에 품질과 락인 비용을 맞을 수 있다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.