---
title: "GLM-5.2와 클로드 오퍼스 4.8, 원샷 3D 게임 제작으로 붙여보니"
published: 2026-06-22T07:22:03.000Z
canonical: https://jeff.news/article/4215
---
# GLM-5.2와 클로드 오퍼스 4.8, 원샷 3D 게임 제작으로 붙여보니

GLM-5.2와 Claude Opus 4.8에 같은 프롬프트로 원시 WebGL 3D 플랫폼 게임을 만들게 한 비교 실험이야. GLM-5.2는 오픈 가중치와 낮은 비용이 강점이지만, Opus는 절반 정도의 시간에 더 완성도 높은 게임을 만들고 스크린샷을 직접 보며 문제를 고쳤어.

## 실험은 꽤 빡셌음

- 비교 대상은 Z.ai의 GLM-5.2와 Claude Opus 4.8임
  - GLM-5.2는 MIT 라이선스의 오픈 가중치 모델이고, 100만 토큰 컨텍스트 윈도우를 제공함
  - High와 Max 두 가지 사고 강도 옵션이 있는데, 이번 실험에서는 High를 사용함
  - Opus 4.8도 확장 사고를 High로 두고 돌림

- 과제는 “원시 WebGL로 3D 플랫폼 게임을 처음부터 만들어라”였음
  - Three.js나 게임 엔진 없이 브라우저에서 돌아가야 했음
  - GLB 바이너리 파서, 행렬·쿼터니언 수학, GLSL 스키닝 셰이더, 고정 타임스텝 루프, 충돌, 추적 카메라까지 필요했음
  - 둘 다 같은 프롬프트, 같은 3D 에셋, 한 번의 시도만 받았음

> [!IMPORTANT]
> 이건 예쁜 랜딩 페이지 하나 뽑는 테스트가 아님. 렌더링·물리·애니메이션·입력·게임 루프가 다 맞아야 해서, 모델의 장기 코딩 능력과 디테일 감각이 같이 드러나는 과제임.

## 결과는 “싸고 열린 GLM, 빠르고 깔끔한 Opus”에 가까움

- 벽시계 시간은 Opus가 확실히 빨랐음
  - Opus는 약 34분 만에 끝냈고, GLM-5.2는 약 1시간 11분이 걸림
  - 대략 Opus가 절반 시간에 결과물을 낸 셈임
  - 대신 GLM-5.2는 비용이 훨씬 낮았고, 출력 토큰 가격 기준 Opus의 5분의 1 미만이라고 설명됨

- GLM-5.2의 게임은 돌아가긴 했지만 거친 부분이 많았음
  - 캐릭터 텍스처가 빠져서 회색으로 보였고, 카메라가 움직이면 머리가 사라지는 문제가 있었음
  - 스파이크 함정에 닿아도 죽지 않았고, 깃발에 도달해도 승리 조건이 동작하지 않았음
  - 디버그 오버레이도 최종 화면에 남아 있었음
  - 그래도 스프링을 밟고 위 플랫폼으로 튀어 오르는 메커닉은 잘 구현함

- Opus의 게임은 더 깔끔했고 끝까지 플레이 가능한 쪽이었음
  - 카메라와 컨트롤러가 잘 동작했고, 텍스처와 애니메이션도 자연스러웠음
  - 스파이크는 플레이어를 죽였고, 깃발에 도달하면 실제 승리 조건이 발동했음
  - 버그도 있었지만 얇은 공중에 잠시 서 있는 코요테 타임 튜닝 문제, 깃발에 조금 일찍 도달 판정이 나는 문제처럼 엣지 케이스에 가까웠음

## 멀티모달 차이가 품질 차이로 바로 튀어나옴

- GLM-5.2는 텍스트 전용이라 자기 결과물을 눈으로 보지 못했음
  - 스크린샷을 저장하긴 했지만 이미지를 직접 이해할 수 없어서, 픽셀 색상을 샘플링해 잔디색·흙색·동전색·깃발색이 있는지 확인하는 식으로 우회함
  - 색이 대충 맞으니 완성됐다고 판단했지만, 실제 화면에는 회색 캐릭터와 디버그 오버레이가 남아 있었음

- Opus는 스크린샷을 직접 읽고 검증했음
  - 렌더링된 장면에서 블록, 동전, 보석, 함정, 깃발, 캐릭터, 점수 UI를 눈으로 확인함
  - 디버그 표시가 남아 있는 것도 보고 제거한 뒤 마무리함
  - 시각 결과물이 중요한 작업에서는 “볼 수 있는 모델”이 단순 코딩 능력 이상으로 유리하다는 결론이 나옴

```mermaid
sequenceDiagram
    participant 작성자 as 실험 작성자
    participant 지엘엠 as GLM-5.2
    participant 오퍼스 as Opus 4.8
    participant 브라우저 as 브라우저 게임
    participant 화면 as 스크린샷 검증
    작성자->>지엘엠: 같은 WebGL 게임 프롬프트 전달
    작성자->>오퍼스: 같은 WebGL 게임 프롬프트 전달
    지엘엠->>브라우저: 텍스트 기반 코드 생성과 실행
    오퍼스->>브라우저: 코드 생성과 실행
    브라우저->>화면: 최종 화면 캡처
    화면-->>지엘엠: 픽셀 색상만 간접 검사
    화면-->>오퍼스: 이미지 내용을 직접 확인
    오퍼스->>브라우저: 디버그 오버레이 제거 후 마무리
```

## 벤치마크와 외부 반응도 비슷한 그림임

- GLM-5.2는 오픈 가중치 모델 중 최상위권으로 평가됨
  - Artificial Analysis의 Intelligence Index v4.1에서 51점을 받아 MiniMax-M3 44점, DeepSeek V4 Pro 44점, Kimi K2.6 43점보다 앞섰다고 함
  - TerminalBench v2.1에서는 78%를 기록했는데, 모델 카드의 81 또는 82.7과는 하네스 차이가 있음
  - 과제당 출력 토큰은 약 4만 3000개로, GLM-5.1의 2만 6000개보다 훨씬 많아 토큰을 많이 쓰는 편임

- 외부 평도 “강하지만 만능은 아님”에 가까움
  - Simon Willison은 GLM-5.2를 “가장 강력한 텍스트 전용 오픈 가중치 LLM일 가능성이 높다”고 평가함
  - Nathan Lambert는 중국 연구소들이 적은 컴퓨트로 이 정도 점수까지 올라온 걸 진지하게 봐야 한다고 말함
  - 다만 저자들의 직접 실험에서는 여전히 Opus가 더 빠르고, 더 정확하고, 더 완성도 있는 결과물을 냈음

## 결론은 선택 기준이 뚜렷해졌다는 것

- GLM-5.2는 비용과 소유권이 중요할 때 강력한 카드임
  - 오픈 가중치라 직접 내려받아 보관하고 실행할 수 있음
  - API 가격도 낮아서 대량 텍스트·로직 작업에서는 매력적임
  - 폐쇄 모델처럼 갑자기 퇴역하거나 제한될 위험이 상대적으로 작음

- Opus는 정확도, 마감 품질, 시각 판단이 중요할 때 여전히 강함
  - 이번 테스트에서는 더 빠르게 끝냈고, 기본 기능이 더 잘 맞았고, 화면을 보고 스스로 고쳤음
  - 비용은 더 비싸지만, 결과물 품질과 검증 능력이 필요한 작업에서는 그 차이가 이유가 됨

---
## 기술 맥락

- 이 실험의 핵심 선택지는 “오픈 가중치 모델을 싸게 길게 쓸 것인가, 폐쇄형 멀티모달 모델에 돈을 더 낼 것인가”예요. GLM-5.2는 직접 보유할 수 있고 싸지만, Opus는 결과물을 눈으로 확인하는 능력이 있어서 시각 작업에서 품질 방어가 쉬웠어요.

- WebGL 게임 과제가 좋은 테스트였던 이유는 겉보기 코드 생성만으로 통과하기 어렵기 때문이에요. GLB 로딩, 스켈레탈 애니메이션, 충돌, 카메라, 셰이더가 조금씩 맞물려야 하니까 모델이 긴 작업 상태를 유지할 수 있는지 바로 드러나요.

- GLM-5.2가 픽셀 색상 검사로 자기 검증을 한 건 꽤 현실적인 우회였지만 한계도 명확했어요. 색상 분포만으로는 캐릭터가 뒤돌아 걷는지, 텍스처가 제대로 붙었는지, 디버그 UI가 남았는지 같은 문제를 안정적으로 잡기 어렵거든요.

- 한국 개발팀이 모델을 고를 때도 이 구분이 중요해요. 백엔드 리팩터링, 긴 문서 처리, 반복적인 코드 작업처럼 텍스트 중심이면 GLM-5.2 같은 오픈 모델이 비용 대비 좋을 수 있고, 프론트엔드·게임·디자인 검수처럼 화면 판단이 들어가면 멀티모달 모델의 값어치가 커져요.

## 핵심 포인트

- GLM-5.2는 MIT 라이선스의 오픈 가중치 모델이고 100만 토큰 컨텍스트를 제공함
- 실험 과제는 Three.js 없이 원시 WebGL로 3D 플랫폼 게임을 한 번에 만드는 것
- Opus는 약 34분, GLM-5.2는 약 1시간 11분이 걸려 Opus가 벽시계 시간 기준 두 배가량 빨랐음
- GLM-5.2는 출력 토큰 가격이 Opus의 5분의 1 미만이지만, 텍스처 누락·승리 조건 부재·충돌 버그가 많았음
- Opus는 멀티모달이라 스크린샷을 직접 보고 디버그 오버레이를 제거했지만, GLM-5.2는 텍스트 전용이라 픽셀 색상 검사에 의존함

## 인사이트

이 비교의 진짜 포인트는 ‘오픈 모델이 폐쇄 모델을 완전히 이겼다’가 아니라, 비용·소유권·시각 검증 능력 사이의 트레이드오프가 꽤 선명해졌다는 점임. 텍스트와 로직 위주의 긴 작업에는 GLM-5.2가 매력적이지만, 화면 결과물을 직접 판단해야 하는 에이전트 작업에서는 멀티모달 여부가 바로 품질 차이로 튀어나옴.
