---
title: "중국 오픈소스 AI, 미국 최상위 모델을 얼마나 빨리 따라잡을까"
published: 2026-06-21T00:05:03.019Z
canonical: https://jeff.news/article/4152
---
# 중국 오픈소스 AI, 미국 최상위 모델을 얼마나 빨리 따라잡을까

중국 즈푸AI의 GLM-5.2가 공개되면서 중국 오픈소스 AI가 미국 최상위 모델을 따라잡는 속도에 관심이 쏠리고 있다. GLM-5.2는 744B 파라미터, 1M 토큰 장문맥, Artificial Analysis 51점, FrontierSWE 74.4점 같은 수치로 오픈소스 진영의 성능을 끌어올렸다. 기사에서는 파운데이션 모델 자체보다 포스트 트레이닝과 생태계 확장이 추격 속도를 좌우할 것이라고 본다.

## 중국 AI 추격전의 새 기준점, GLM-5.2

- 미국이 앤트로픽의 최상위 모델 미토스와 일반 버전 페이블 접근을 외국인에게 제한한 날, 중국 오픈소스 AI 진영은 오히려 분위기가 달아올랐음
  - 즈푸AI가 6월 17일 GLM-5.2를 공개함
  - 포스트 트레이닝 전문 스타트업 Mind Lab이 빠르게 GLM-5.2 후학습 지원을 선언함
  - 기사에서는 이 조합을 중국 오픈소스 진영의 협공으로 봄

- “중국 AI가 미국 AI를 언제 따라잡느냐”에 대한 전망은 엇갈림
  - 독립 연구원 Teortaxes는 GLM-5.2의 현재 능력을 Claude Opus 4.7에서 4.8 사이로 평가함
  - Mythos와 GLM 사이 격차를 약 7개월로 추정함
  - 일론 머스크는 더 보수적으로 “아마도 2027년 1분기”라고 봄
  - 즈푸AI 창립자 탕제는 “그렇게 오래 걸리지 않는다”고 답함

## GLM-5.2가 실제로 보여준 수치

- GLM-5.2는 스펙부터 대형 오픈소스 모델의 체급을 보여줌
  - 혼합 전문가(MoE) 아키텍처를 사용함
  - 총 744B 파라미터, 활성화 파라미터 약 40B 구조임
  - 1M 토큰 장문맥 처리 능력을 갖춤

- 벤치마크에서도 오픈소스 기준으로는 꽤 공격적인 결과가 나옴
  - Artificial Analysis 종합 지수에서 51점으로 글로벌 오픈소스 모델 1위를 기록함
  - FrontierSWE 롱코딩 벤치마크에서는 74.4점을 받음
  - Claude Opus 4.8의 75.1점과 격차가 1%포인트 수준까지 좁혀짐
  - Code Arena에서는 글로벌 전체 모델 중 1위를 차지함

> [!IMPORTANT]
> 비용 차이가 더 세다. 동일 작업에서 GLM-5.2는 0.06달러, Opus 4.8은 0.49달러로 약 8배 차이가 난다.

- 다만 아직 완전히 따라잡았다고 말하긴 어려움
  - SWE-Marathon 같은 더 어려운 벤치마크에서는 13.0 대 26.0으로 여전히 큰 차이가 있음
  - 벤치마크 추격과 실제 유용성 사이에는 간극이 있다는 지적도 나옴

## 승부처는 파운데이션 모델만이 아니다

- 기사에서 가장 강하게 밀고 가는 논점은 포스트 트레이닝의 중요성임
  - OpenAI가 GPT-4에서 o1로 도약할 때도 핵심 경쟁력은 사후학습에서 나왔다는 설명임
  - Anthropic의 Constitutional AI 역시 포스트 트레이닝 방법론으로 언급됨

- 비유하자면 파운데이션 모델은 건물 설계도, 포스트 트레이닝은 실제 시공 기술에 가까움
  - 설계도가 최대 높이를 정한다면, 그 높이까지 실제로 올리는 건 후속 학습과 정렬, 평가, 튜닝 역량임
  - GLM-5.1에서 5.2로의 도약도 기반 능력보다 시공 기술의 개선을 보여주는 사례로 해석됨

- Mind Lab은 이 지점에서 중요한 지원군으로 등장함
  - 선전의 스타트업 Mindverse 산하 AI 연구소임
  - 대형 모델 포스트 트레이닝에 특화된 조직임
  - 즈푸가 GLM이라는 기반 모델을 제공하면, Mind Lab은 그 위에서 성능을 최대한 끌어내는 역할을 함

## Mind Lab과 MinT가 만드는 생태계 효과

- Mind Lab은 이미 GLM-5.1 기반 후처리 모델 Macaron-V1-Preview로 성능 향상을 보여줌
  - PinchBench 점수를 76.6점에서 92.5점으로 올림
  - 절대 점수로는 15.9점 상승, 상대 향상률은 20.8%임
  - 기사에서는 GLM 기반 능력이 아직 충분히 발휘되지 않았다는 근거로 봄

- GLM-5.2 공개 후에는 신기술 적응도 빠르게 진행됨
  - GLM-5.2의 IndexCache 아키텍처에 대한 완전한 적응을 완료하고 오픈소스로 공개함
  - 동적 희소 어텐션(DSA), 다중 토큰 예측(MTP) 같은 700B 이상 모델 특화 모듈 적응 방안도 기술 블로그로 공개함
  - HuggingFace에서 GLM-5.1과 5.2 시리즈 후처리를 완료해 공개 배포한 외부 팀은 Mind Lab이 유일하다고 기사에 나옴

- Mind Lab의 플랫폼 MinT는 GLM만 보는 도구가 아님
  - Qwen, DeepSeek, Kimi, GLM, MiniMax, 기타 VLA 모델 생태계를 지원함
  - 하나의 통합 인터페이스에서 LoRA 기반 사후처리를 수행할 수 있게 해줌
  - 최대 1T, 즉 1조 파라미터 규모 모델까지 지원함
  - LoRA-RL 기술로 전량 미세조정 대비 약 10분의 1 비용으로 후처리를 가능하게 한다고 설명됨

- 시장도 이 방향에 돈을 걸고 있음
  - 2026년 6월 Mindverse는 메이투안이 리드한 A시리즈 투자에서 약 5,000만 달러를 유치함
  - 포스트 트레이닝이 단순 연구 보조가 아니라 독립된 인프라 사업으로 평가받고 있다는 신호임

## 오픈소스 진영의 추격 속도

- 기사에서 제시하는 추격의 세 축은 꽤 명확함
  - 첫째, 즈푸의 파운데이션 모델이 빠르게 개선되고 있음
  - 둘째, Mind Lab 같은 포스트 트레이닝 전문 팀의 반복 주기는 기반 모델 훈련보다 훨씬 짧음
  - 셋째, MinT 같은 플랫폼이 특정 모델에 종속되지 않고 중국 주요 모델 전체의 후처리 역량을 끌어올림

- 그래서 “몇 개월 뒤 따라잡느냐”보다 더 중요한 질문은 생태계 반복 속도임
  - 단일 기업의 단일 모델 대결이 아니라, 공개 모델과 외부 후처리 팀이 계속 붙는 구조임
  - 미국의 접근 제한이 오히려 중국 오픈소스 진영의 실험과 확산을 자극할 수 있다는 해석도 나옴
  - 오픈소스라면 외부 연구자와 개발자가 바로 가져가서 실험할 수 있다는 점이 추격 속도를 키움

---

## 기술 맥락

- GLM-5.2에서 중요한 선택은 거대한 파라미터 수를 그대로 매번 쓰지 않는 MoE 구조예요. 총 744B 규모를 갖추면서도 활성화 파라미터를 약 40B로 제한하면, 성능과 비용 사이에서 현실적인 타협이 가능해지거든요.

- 기사에서 포스트 트레이닝을 강조하는 이유는 기반 모델 성능이 상향 평준화될수록 마지막 사용감 차이가 후속 학습에서 나기 때문이에요. 코딩, 추론, 긴 문맥 처리 같은 실제 작업은 단순 사전학습 점수만으로 결정되지 않아요.

- Mind Lab의 MinT가 여러 중국 모델을 지원하는 것도 전략적으로 커요. GLM 하나만 잘 튜닝하는 팀이 아니라 Qwen, DeepSeek, Kimi, MiniMax까지 다루는 후처리 인프라가 되면, 특정 모델의 승패와 별개로 생태계 전체의 반복 속도를 높일 수 있어요.

- LoRA 기반 접근이 중요한 이유는 비용이에요. 1조 파라미터급 모델을 매번 전량 미세조정하면 돈과 시간이 너무 많이 들기 때문에, 일부 파라미터만 효율적으로 조정하는 방식이 빠른 실험과 배포에 유리해요.

- 결국 이 경쟁은 “누가 제일 큰 모델을 만들었나”에서 “누가 더 빨리 개선하고 싸게 배포하나”로 이동하고 있어요. 개발자 입장에서는 벤치마크 1점보다 API 비용, 오픈소스 가용성, 튜닝 가능성이 더 체감될 수 있어요.

## 핵심 포인트

- GLM-5.2는 MoE 구조, 총 744B 파라미터, 활성화 파라미터 약 40B, 1M 토큰 문맥 길이를 갖췄다.
- Artificial Analysis 종합 지수 51점으로 글로벌 오픈소스 모델 1위를 기록했다.
- FrontierSWE 롱코딩 벤치마크에서는 74.4점으로 Claude Opus 4.8의 75.1점에 1%포인트 차이까지 접근했다.
- 동일 작업 비용은 GLM-5.2가 0.06달러, Opus 4.8이 0.49달러로 약 8배 차이가 난다.
- Mind Lab은 GLM-5.1 기반 모델을 PinchBench 76.6점에서 92.5점으로 끌어올리며 포스트 트레이닝의 영향력을 보여줬다.

## 인사이트

이 기사에서 재미있는 지점은 중국 AI 추격을 단일 모델 성능 싸움으로 보지 않는다는 점이다. 기반 모델, 포스트 트레이닝 전문 팀, 오픈소스 배포 생태계가 묶이면 벤치마크 격차보다 더 빠르게 제품 체감 성능이 좁혀질 수 있다.