- 2026년 4월 20일 밤, 베이징 문샷AI가 X에 짧은 공지 — "Kimi K2.6, 오픈소스로 출시"
- 1조 파라미터 MoE 모델이 허깅페이스에 풀림. 문샷이 최근 9개월 동안 내놓은 다섯 번째 주요 업데이트
- SWE-Bench Pro 58.6점 — Claude Opus 4.6(53.4), GPT-5.4(57.7) 앞섬
- API 가격 — 입력 100만 토큰당 0.60달러, 출력 2.50달러. Claude Opus의 약 1/4 수준
- 300개 서브 에이전트 동시 구동 + 4000단계 자율 엔지니어링. 12시간 무감독으로 8년 된 매칭 엔진 처리량 185% 개선 로그 공개
❗중요
> Claude Opus 4.6 입력 토큰 15달러 vs Kimi K2.6 0.60달러 — 25배 차이. 벤치마크 점수로도 앞섬. "부드러움"으로 메울 수 있는 격차가 아님.
댄 왕의 — 엔지니어 국가 vs 변호사 국가
- 2025년 8월 출간, FT 올해의 비즈니스북 후보·NYT 베스트셀러
- 미국 = 변호사의 나라 — 대통령 대부분이 로스쿨 출신. 기본 반응은 "소송", 뭔가 막는 덴 천재적
- 중국 = 엔지니어의 나라 — 내각이 공학 학위 소지자. 기본 반응은 "짓는 것"
- 책의 핵심 — 짓는 나라와 막는 나라가 붙으면 짓는 쪽이 속도에서 이긴다
- AI에 투영하면 구도가 선명
- 미국은 프론티어 모델을 "법적 자산"으로 설계 → 가중치는 금고에, API로 토큰 임대
- 중국은 모델을 "인프라"로 설계 → 가중치 오픈소스로 풀고 국가 보조금으로 떠받침
중국의 AI 자본 물량전
- 2025년 중국 AI 자본 지출 최대 980억 달러 추산
- 정부 기여분 약 560억 달러. 반도체 대기금 3호만 500억 달러
- 동수서산(東數西算) — 동부 데이터 수요를 서부 재생에너지 클러스터로 옮기는 국가 프로젝트
- 베이징·상하이·선전이 컴퓨팅 바우처 발행, AI 스타트업이 GPU 시간을 정부지원금으로 대여
- 결과 숫자로 증명
- a16z·OpenRouter 조사 — 중국 오픈소스 모델이 글로벌 AI 사용량 약 30% 차지
- 허깅페이스 2026 봄 리포트 — 2025년 2월~2026년 2월 중국산 모델 다운로드 41%, 미국산 36.5%
- 알리바바 Qwen 누적 다운로드 7억 건 돌파. 세계에서 가장 널리 배포된 셀프호스트 LLM은 더 이상 Llama가 아니라 Qwen
- 물론 낭비도 심각 — 2024년 말 중국 신규 컴퓨팅 자원의 최대 80%가 유휴, 데이터센터가 보조금 사냥꾼 놀이터
- 그럼에도 물량 공세는 결과를 만들어냄. 엔지니어 국가 방식 — 낭비하더라도 일단 짓고, 그 위에서 뭔가 자라남
미국 AI 가격 천장이 고정된 이유
- 앤트로픽 Claude Pro($20) 위에 Max 5x($100), Max 20x($200) 추가
- 오픈AI 2026년 4월 9일, Plus($20)와 Pro($200) 사이에 100달러 Pro 티어 신설
- $100 지점에서 두 회사 정면 충돌. $200 천장 위로는 아무도 못 올라감
- 구글 Gemini Ultra $300 시도했지만 대부분 50% 할인 3개월만 쓰고 해지
- 왜? 두 가지 이유
- 소비자 심리 저항선이 거기
- 그 위엔 이미 중국 오픈소스가 사실상 무료로 앉아 있음
B2C 구조적 적자
- 앤트로픽 CFO Krishna Rao 법원 문서 — 창사 이래 누적 매출 "50억 달러 초과"에 추론·학습만 100억 달러 초과 지출
- 오픈AI 내부 자료(디 인포메이션 입수) — 2026년 140억 달러 손실 예상, 주간 활성 900만명 중 유료는 5.5%
막혀가는 통로
- 2026년 4월 4일, 앤트로픽이 Claude Pro/Max 구독을 OpenClaw 같은 외부 프레임워크로 쓰는 걸 금지
- B2C 실패의 고백. 구독자 한 명이 API 호출 100건어치 뽑는 구조가 지속 불가능
- Max 20x 실질 할당량 — 5시간 창당 약 900 메시지. Claude Code로 리팩토링 몇 시간이면 하루 쿼터 증발
- 피크 시간대 세션 리밋 의도적으로 조임 (3월 26일 공식 확인)
ℹ️참고
> 궤적은 한쪽으로만 흐름 — 가격은 유지·상승, 리밋은 조용히 하락. 명시적 인상 없이도 "같은 가격에 덜 주는" 구조.
한국이 선택할 수 있는 세 경로
- 선택 1 — 그대로 지불 — 월 200달러 Claude Max/ChatGPT Pro, 엔터프라이즈 API 계약. 기업엔 통화경쟁력 손실, 개인엔 월 30만원+ 고정비
- 선택 2 — 오픈소스 중국 모델 자체 운영 — 이미 현실
- Qwen 3.5-35B-A3B는 4비트 양자화로 단일 RTX 5090 위에서도 구동
- Kimi K2.6은 기존 OpenClaw 스택 재활용 가능
- LoRA 파인튜닝으로 도메인 주입 — 연간 $15K~60K 훈련비로 자사 데이터 위에서 Claude Sonnet 4.5급 성능
- 대기업이 내부 문서·법무·규제 준수처럼 데이터 주권이 중요한 영역에 이미 선택 중
- 선택 3 — 중국 상용 API 직접 사용
- 문샷 platform.moonshot.ai는 앤트로픽 API 규격 호환 → 환경변수 한두 개만 바꿔 Claude Code 스택 그대로 작동
- 알리바바 Qwen API — 입력 토큰 100만개당 0.23달러까지 내려감
- 각 경로의 비용
- 오픈소스 자체 운영 — 초기 엔지니어링 투자, 운영 역량 필요
- 중국 API — 데이터 레지던시, 지정학적 리스크. 일부 국가는 공공기기 DeepSeek 금지. 콘텐츠 모더레이션 흔적 문제
- 하지만 진짜 답은 "하나만 쓰는 시대 끝" — 멀티 모델 아키텍처가 기본값
- Claude → 크리티컬 고부가가치
- Qwen/Kimi → 대량 반복 + 데이터 프라이버시
- 로컬 파인튜닝 → 자사 도메인 특화
한국은 '관료의 국가'
- 한국은 엔지니어도 변호사도 아닌, 지금까지 관료의 국가
- 1970년대 조선·철강, 1980년대 반도체, 90년대 말 초고속 인터넷망, 2010년대 디스플레이, K콘텐츠까지 모두 정부 주도
- GDP 대비 수출 비중 35%+ — 관료 설계도가 맞을 때 놀랍게 작동
- 문제는 정부가 움직이지 않거나 기존 규제 안에서 새로운 게 나올 때
- 2020년 3월 '타다 금지법' — 170만 사용자 모은 VCNC 타다가 불법화. 이재웅 왈 "한국에서 혁신은 죽었다"
- 로톡(변협), 닥터나우(의료계), 헤이딜러(자동차관리법) — 반복 패턴
- 기득세력이 유권자 얼굴로 나타나면 선출 권력은 혁신보다 표를 선택
⚠️주의
> 중국 정부가 2025년 한 해만 AI에 560억 달러 집행하는 동안, 한국 국가 소버린 AI 이니셔티브는 LG AI Research·SKT·네이버 클라우드·NC AI·업스테이지를 "국가대표"로 지명하는 수준. Qwen이 한 달에 찍는 다운로드를 한국은 일 년에 못 찍음.
- 무서운 시나리오 — AI 진료 보조, AI 법률, AI 교육, AI 세무가 기존 업권에 하나씩 타다처럼 눕혀지는 일
- 2020년 타다를 죽인 메커니즘이 2027년 AI 스타트업들을 같은 방식으로 죽일 수 있음
세 갈래 길 — A, B, C
기술 맥락
Kimi K2.6의 1조 파라미터 MoE(Mixture of Experts) 구조가 왜 가격 경쟁력을 만들어내는지 보면, MoE는 매 토큰마다 전체 파라미터를 다 쓰는 게 아니라 일부 전문가 서브넷만 활성화하는 방식이에요. 그래서 총 1조 파라미터라고 해도 실제 활성화되는 건 훨씬 적고, 추론 비용을 낮게 유지할 수 있거든요. Claude Opus 같은 dense 모델이 구조적으로 더 비싼 이유가 여기 있어요.
SWE-Bench Pro라는 벤치마크가 요즘 프론티어 모델 평가의 결정적 기준이 된 맥락도 알아두면 좋아요. 이건 실제 오픈소스 저장소의 이슈를 주고 코드를 고쳐서 테스트를 통과시키는지 보는 평가인데, 단순 코딩 대회가 아니라 "실제 엔지니어링 업무를 얼마나 자율적으로 해내는가"를 측정해요. Kimi K2.6이 여기서 Opus 4.6을 앞섰다는 건 실전 에이전트 태스크에서 동급이거나 낫다는 의미예요.
앤트로픽이 4월 4일에 OpenClaw 같은 외부 라우터를 막은 조치는 B2B SaaS 가격 모델의 구조적 한계를 드러낸 사건이에요. 구독제는 사용량에 비례한 과금을 못 하는 구조라 파워유저 한 명이 구독 하나로 API 호출 100건 가치를 뽑아가도 회사가 손실을 볼 수밖에 없거든요. 피크 시간 세션 리밋 조이기도 같은 맥락이고요.
한국 기업이 중국 API를 그대로 쓰기 어려운 이유에는 데이터 레지던시 외에 "콘텐츠 모더레이션 흔적"이 있어요. 중국산 모델은 학습·파인튜닝 단계에서 특정 주제(천안문, 대만 등)에 대한 답변이 필터링되어 있는데, 이게 일반 개발 업무엔 영향이 없어도 글로벌 서비스에 쓸 때 갑자기 튀어나올 수 있어요. 그래서 자체 LoRA 파인튜닝으로 오픈 가중치 버전을 돌리는 선택이 더 안전한 경우가 많아요.
LoRA(Low-Rank Adaptation) 같은 기법이 실용화된 덕분에 연 $15K~60K 수준으로 Claude Sonnet 4.5급 도메인 특화 모델을 내부에 구축할 수 있게 된 것도 큰 변화예요. 기존엔 파인튜닝이 GPU 수천대가 필요한 일이었는데, LoRA는 전체 파라미터가 아닌 작은 저랭크 행렬만 학습해서 훨씬 적은 자원으로 도메인 주입이 가능하거든요.
댓글
댓글
댓글을 불러오는 중...