---
title: "지푸, 8시간 자율 코딩하는 오픈소스 'GLM-5.1' 출시 — SWE-bench에서 GPT-5.4 추월"
published: 2026-04-08T09:05:06.214Z
canonical: https://jeff.news/article/1630
---
# 지푸, 8시간 자율 코딩하는 오픈소스 'GLM-5.1' 출시 — SWE-bench에서 GPT-5.4 추월

중국 지푸 AI가 754B 파라미터 MoE 기반 오픈소스 모델 GLM-5.1을 공개함. 최대 8시간 연속 자율 작업이 가능하며, SWE-bench Pro에서 58.4점으로 GPT-5.4(57.7)와 클로드 오퍼스4.6(57.3)을 소폭 상회.

## 모델 개요

- 중국 지푸(Zhipu) AI가 차세대 모델 **GLM-5.1** 공개함 (4월 7일)
- 오픈소스 모델로 허깅페이스와 모델스코프에서 가중치 다운로드 가능함
  - 수정 및 상업적 활용 모두 허용
- **754B(7540억)개 파라미터**의 MoE(전문가 혼합) 구조로 설계됨
- 핵심 특징: **최대 8시간** 동안 인간 개입 없이 자율 작업 수행 가능

## 장기 자율 실행 능력

- 기존 모델들은 초기 몇 단계에서 성과를 내고 이후 정체되는 한계가 있었음
- GLM-5.1은 복잡한 문제를 세분화 → 실험/검증 반복 → 병목 분석의 과정을 지속 수행함
  - 수백 번의 반복 + 수천 번의 도구 호출을 통해 전략을 계속 수정함
  - 실행 시간이 길어질수록 결과가 개선되는 구조임
- 이전 세대 모델: ~20단계 수준에서 작업 종료
- GLM-5.1: **약 1700단계**까지 확장된 작업 수행 능력 보임

## 벤치마크 성능

> [!IMPORTANT]
> SWE-bench Pro에서 **58.4점**을 기록하며 프론티어 모델들을 소폭 상회함:
> - GLM-5.1: **58.4**
> - OpenAI GPT-5.4: 57.7
> - Anthropic 클로드 오퍼스 4.6: 57.3
> - Google 제미나이 3.1: 54.2

- 실제 개발 환경 테스트에서 코드 생성 → 컴파일 → 테스트 → 성능 개선까지 반복 수행
  - 기존 모델 대비 **최대 6배 이상** 성능 향상 달성
- **KernelBench** (GPU 커널 최적화 벤치마크)
  - 장기 실행에서 유의미한 성능 향상을 지속함
  - **평균 3.6배** GPU 커널 속도 개선 달성
  - 기존 모델들은 초기 개선 후 곧 정체되는 반면 GLM-5.1은 계속 향상됨

## 웹 앱 생성 실험

- 정량 지표 없는 작업에서도 성능 향상 확인됨
- 리눅스 스타일 데스크톱 환경 구현 과제 수행
  - 대부분의 모델은 초기 결과물 생성 후 작업 종료함
  - GLM-5.1은 **약 8시간** 동안 스스로 평가 → 개선을 반복함
  - 결과: 파일 탐색기, 터미널, 텍스트 에디터 등 통합된 웹 환경 완성

## 포지셔닝 & 가격

- 일반 챗봇이 아닌 **엔지니어링 도구**로 포지셔닝함
- 별도 코딩 플랫폼을 통해 API 서비스 동시 출시
- API 가격:
  - 입력: 100만 토큰당 **$1.4**
  - 출력: 100만 토큰당 **$4.4**

---

## 기술 맥락

- **장기 자율 실행(Long-horizon Agentic Execution)이 왜 중요한가요?** 기존 AI 모델은 한 번의 프롬프트에 한 번의 응답을 내는 구조였어요. 그런데 실제 엔지니어링 작업은 "코드 작성 → 실행 → 에러 확인 → 수정 → 다시 실행"의 반복이거든요. GLM-5.1이 8시간/1700단계까지 자율 작업을 수행한다는 건, AI가 단순 응답 도구에서 실제로 일을 해내는 에이전트로 전환되고 있다는 걸 의미해요.

- **왜 MoE 구조를 선택했을까요?** 754B이라는 거대한 파라미터 수에도 불구하고 실용적으로 추론을 돌릴 수 있는 건 MoE 덕분이에요. MoE는 전체 파라미터 중 일부 전문가만 활성화하기 때문에, 실제 추론 시 필요한 연산량은 밀집(dense) 모델 대비 훨씬 적거든요. 특히 8시간이나 작업을 돌려야 하는 상황에서는 추론 효율이 핵심이에요.

- **Test-time Compute Scaling의 극단적 사례예요.** 최근 AI 업계에서는 "학습 때 컴퓨팅을 더 쓰는 것"보다 "추론 때 컴퓨팅을 더 쓰는 것"이 성능 향상에 효과적이라는 패러다임이 부상하고 있어요. GLM-5.1은 이걸 극단적으로 밀어붙인 사례로, 실행 시간이 길어질수록 결과가 좋아지는 스케일링 곡선을 보여주고 있거든요. 단일 응답의 품질 경쟁에서 "얼마나 오래, 얼마나 깊게 작업할 수 있는가"의 경쟁으로 전환되고 있는 흐름이에요.

## 핵심 포인트

- 754B MoE 구조, 최대 8시간/1700단계 연속 자율 작업 가능
- SWE-bench Pro 58.4점 — GPT-5.4(57.7), 클로드 오퍼스4.6(57.3) 소폭 상회
- KernelBench에서 평균 3.6배 GPU 커널 속도 개선 달성
- 오픈소스 + API 동시 출시, 입력 $1.4/출력 $4.4 (100만 토큰당)

## 인사이트

단일 응답이 아니라 '장시간 반복 개선'이라는 새로운 AI 패러다임을 보여주는 모델. 챗봇이 아닌 엔지니어링 도구로 포지셔닝한 것도 시장 차별화 포인트.
