GLM-5.2와 클로드 오퍼스 4.8, 원샷 3D 게임 제작으로 붙여보니

ai-ml 2026-06-22 약 9분

 tags

#llm #glm #opus #webgl #benchmark

vote

북마크

GLM-5.2와 Claude Opus 4.8에 같은 프롬프트로 원시 WebGL 3D 플랫폼 게임을 만들게 한 비교 실험이야. GLM-5.2는 오픈 가중치와 낮은 비용이 강점이지만, Opus는 절반 정도의 시간에 더 완성도 높은 게임을 만들고 스크린샷을 직접 보며 문제를 고쳤어.

1
GLM-5.2는 MIT 라이선스의 오픈 가중치 모델이고 100만 토큰 컨텍스트를 제공함
2
실험 과제는 Three.js 없이 원시 WebGL로 3D 플랫폼 게임을 한 번에 만드는 것
3
Opus는 약 34분, GLM-5.2는 약 1시간 11분이 걸려 Opus가 벽시계 시간 기준 두 배가량 빨랐음
4
GLM-5.2는 출력 토큰 가격이 Opus의 5분의 1 미만이지만, 텍스처 누락·승리 조건 부재·충돌 버그가 많았음
5
Opus는 멀티모달이라 스크린샷을 직접 보고 디버그 오버레이를 제거했지만, GLM-5.2는 텍스트 전용이라 픽셀 색상 검사에 의존함

실험은 꽤 빡셌음

비교 대상은 Z.ai의 GLM-5.2와 Claude Opus 4.8임
- GLM-5.2는 MIT 라이선스의 오픈 가중치 모델이고, 100만 토큰 컨텍스트 윈도우를 제공함
- High와 Max 두 가지 사고 강도 옵션이 있는데, 이번 실험에서는 High를 사용함
- Opus 4.8도 확장 사고를 High로 두고 돌림
과제는 “원시 WebGL로 3D 플랫폼 게임을 처음부터 만들어라”였음
- Three.js나 게임 엔진 없이 브라우저에서 돌아가야 했음
- GLB 바이너리 파서, 행렬·쿼터니언 수학, GLSL 스키닝 셰이더, 고정 타임스텝 루프, 충돌, 추적 카메라까지 필요했음
- 둘 다 같은 프롬프트, 같은 3D 에셋, 한 번의 시도만 받았음

❗중요

> 이건 예쁜 랜딩 페이지 하나 뽑는 테스트가 아님. 렌더링·물리·애니메이션·입력·게임 루프가 다 맞아야 해서, 모델의 장기 코딩 능력과 디테일 감각이 같이 드러나는 과제임.

결과는 “싸고 열린 GLM, 빠르고 깔끔한 Opus”에 가까움

벽시계 시간은 Opus가 확실히 빨랐음
- Opus는 약 34분 만에 끝냈고, GLM-5.2는 약 1시간 11분이 걸림
- 대략 Opus가 절반 시간에 결과물을 낸 셈임
- 대신 GLM-5.2는 비용이 훨씬 낮았고, 출력 토큰 가격 기준 Opus의 5분의 1 미만이라고 설명됨
GLM-5.2의 게임은 돌아가긴 했지만 거친 부분이 많았음
- 캐릭터 텍스처가 빠져서 회색으로 보였고, 카메라가 움직이면 머리가 사라지는 문제가 있었음
- 스파이크 함정에 닿아도 죽지 않았고, 깃발에 도달해도 승리 조건이 동작하지 않았음
- 디버그 오버레이도 최종 화면에 남아 있었음
- 그래도 스프링을 밟고 위 플랫폼으로 튀어 오르는 메커닉은 잘 구현함
Opus의 게임은 더 깔끔했고 끝까지 플레이 가능한 쪽이었음
- 카메라와 컨트롤러가 잘 동작했고, 텍스처와 애니메이션도 자연스러웠음
- 스파이크는 플레이어를 죽였고, 깃발에 도달하면 실제 승리 조건이 발동했음
- 버그도 있었지만 얇은 공중에 잠시 서 있는 코요테 타임 튜닝 문제, 깃발에 조금 일찍 도달 판정이 나는 문제처럼 엣지 케이스에 가까웠음

멀티모달 차이가 품질 차이로 바로 튀어나옴

GLM-5.2는 텍스트 전용이라 자기 결과물을 눈으로 보지 못했음
- 스크린샷을 저장하긴 했지만 이미지를 직접 이해할 수 없어서, 픽셀 색상을 샘플링해 잔디색·흙색·동전색·깃발색이 있는지 확인하는 식으로 우회함
- 색이 대충 맞으니 완성됐다고 판단했지만, 실제 화면에는 회색 캐릭터와 디버그 오버레이가 남아 있었음
Opus는 스크린샷을 직접 읽고 검증했음
- 렌더링된 장면에서 블록, 동전, 보석, 함정, 깃발, 캐릭터, 점수 UI를 눈으로 확인함
- 디버그 표시가 남아 있는 것도 보고 제거한 뒤 마무리함
- 시각 결과물이 중요한 작업에서는 “볼 수 있는 모델”이 단순 코딩 능력 이상으로 유리하다는 결론이 나옴

sequenceDiagram
    participant 작성자 as 실험 작성자
    participant 지엘엠 as GLM-5.2
    participant 오퍼스 as Opus 4.8
    participant 브라우저 as 브라우저 게임
    participant 화면 as 스크린샷 검증
    작성자->>지엘엠: 같은 WebGL 게임 프롬프트 전달
    작성자->>오퍼스: 같은 WebGL 게임 프롬프트 전달
    지엘엠->>브라우저: 텍스트 기반 코드 생성과 실행
    오퍼스->>브라우저: 코드 생성과 실행
    브라우저->>화면: 최종 화면 캡처
    화면-->>지엘엠: 픽셀 색상만 간접 검사
    화면-->>오퍼스: 이미지 내용을 직접 확인
    오퍼스->>브라우저: 디버그 오버레이 제거 후 마무리

벤치마크와 외부 반응도 비슷한 그림임

GLM-5.2는 오픈 가중치 모델 중 최상위권으로 평가됨
- Artificial Analysis의 Intelligence Index v4.1에서 51점을 받아 MiniMax-M3 44점, DeepSeek V4 Pro 44점, Kimi K2.6 43점보다 앞섰다고 함
- TerminalBench v2.1에서는 78%를 기록했는데, 모델 카드의 81 또는 82.7과는 하네스 차이가 있음
- 과제당 출력 토큰은 약 4만 3000개로, GLM-5.1의 2만 6000개보다 훨씬 많아 토큰을 많이 쓰는 편임
외부 평도 “강하지만 만능은 아님”에 가까움
- Simon Willison은 GLM-5.2를 “가장 강력한 텍스트 전용 오픈 가중치 LLM일 가능성이 높다”고 평가함
- Nathan Lambert는 중국 연구소들이 적은 컴퓨트로 이 정도 점수까지 올라온 걸 진지하게 봐야 한다고 말함
- 다만 저자들의 직접 실험에서는 여전히 Opus가 더 빠르고, 더 정확하고, 더 완성도 있는 결과물을 냈음

결론은 선택 기준이 뚜렷해졌다는 것

GLM-5.2는 비용과 소유권이 중요할 때 강력한 카드임
- 오픈 가중치라 직접 내려받아 보관하고 실행할 수 있음
- API 가격도 낮아서 대량 텍스트·로직 작업에서는 매력적임
- 폐쇄 모델처럼 갑자기 퇴역하거나 제한될 위험이 상대적으로 작음
Opus는 정확도, 마감 품질, 시각 판단이 중요할 때 여전히 강함
- 이번 테스트에서는 더 빠르게 끝냈고, 기본 기능이 더 잘 맞았고, 화면을 보고 스스로 고쳤음
- 비용은 더 비싸지만, 결과물 품질과 검증 능력이 필요한 작업에서는 그 차이가 이유가 됨

기술 맥락

이 실험의 핵심 선택지는 “오픈 가중치 모델을 싸게 길게 쓸 것인가, 폐쇄형 멀티모달 모델에 돈을 더 낼 것인가”예요. GLM-5.2는 직접 보유할 수 있고 싸지만, Opus는 결과물을 눈으로 확인하는 능력이 있어서 시각 작업에서 품질 방어가 쉬웠어요.
WebGL 게임 과제가 좋은 테스트였던 이유는 겉보기 코드 생성만으로 통과하기 어렵기 때문이에요. GLB 로딩, 스켈레탈 애니메이션, 충돌, 카메라, 셰이더가 조금씩 맞물려야 하니까 모델이 긴 작업 상태를 유지할 수 있는지 바로 드러나요.
GLM-5.2가 픽셀 색상 검사로 자기 검증을 한 건 꽤 현실적인 우회였지만 한계도 명확했어요. 색상 분포만으로는 캐릭터가 뒤돌아 걷는지, 텍스처가 제대로 붙었는지, 디버그 UI가 남았는지 같은 문제를 안정적으로 잡기 어렵거든요.
한국 개발팀이 모델을 고를 때도 이 구분이 중요해요. 백엔드 리팩터링, 긴 문서 처리, 반복적인 코드 작업처럼 텍스트 중심이면 GLM-5.2 같은 오픈 모델이 비용 대비 좋을 수 있고, 프론트엔드·게임·디자인 검수처럼 화면 판단이 들어가면 멀티모달 모델의 값어치가 커져요.

이 비교의 진짜 포인트는 ‘오픈 모델이 폐쇄 모델을 완전히 이겼다’가 아니라, 비용·소유권·시각 검증 능력 사이의 트레이드오프가 꽤 선명해졌다는 점임. 텍스트와 로직 위주의 긴 작업에는 GLM-5.2가 매력적이지만, 화면 결과물을 직접 판단해야 하는 에이전트 작업에서는 멀티모달 여부가 바로 품질 차이로 튀어나옴.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-06-21

오픈 모델로 갈아타는 비용이 생각보다 작아지고 있음

필자는 한때 리눅스로 전환하는 데 실무 리스크가 컸던 것처럼, 지금은 오픈 가중치 대규모 언어 모델(LLM)을 쓰는 데도 비슷한 페널티가 있다고 봐. 다만 Claude의 신원 인증 같은 변화가 생기면서, 상위 독점 모델을 계속 쓰는 비용과 오픈 모델로 이동하는 비용을 다시 계산할 시점이 됐다는 주장임.

ai-ml 2026-06-22

AWS, AI 에이전트용 지식 그래프 서비스 ‘AWS 컨텍스트’ 공개

AWS가 기업 데이터의 관계를 자동으로 매핑해 AI 에이전트가 활용할 수 있게 하는 AWS 컨텍스트를 공개했다. 데이터 레이크, 웨어하우스, 데이터베이스, 스트림에 흩어진 정보를 지식 그래프로 묶고, IAM·레이크 포메이션 권한을 그대로 적용해 거버넌스까지 챙기는 구조다.

ai-ml 2026-06-22

국내 AI·클라우드 업체들, 공공 인프라와 국산 풀스택 쪽으로 판 키우는 중

오케스트로는 국토부 AI 특화 시범도시 사업에서 천안·아산 컨소시엄 대표 기업으로 참여하고, NDS는 경기도 클라우드 전환 2차 사업을 맡았어. 리벨리온은 CCK솔루션과 손잡고 국산 신경망처리장치 기반 AI 풀스택 솔루션을 만들겠다고 밝혔어. 공공 인프라, 지방 클라우드, 국산 AI 하드웨어·소프트웨어 묶음이 동시에 움직이는 흐름이 보이는 기사야.

ai-ml 2026-06-22

중국 오픈소스 AI ‘GLM-5.2’, 코딩 모델 판을 흔들 수 있을까

중국 z.AI가 공개한 오픈소스 대규모 언어 모델(LLM) GLM-5.2가 코딩과 AI 에이전트 작업에서 실리콘밸리 개발자들의 주목을 받고 있음. 최대 100만 토큰 문맥을 지원하고, 일부 업계 인사들은 일상 업무에 쓸 수 있는 첫 오픈 모델급이라고 평가했음.

ai-ml 2026-06-22

앤트로픽, AI 위험을 오픈AI보다 8배 더 자주 말했다는 분석 나옴

파이낸셜타임스 분석에 따르면 2026년 앤트로픽과 다리오 아모데이 CEO의 공식 커뮤니케이션에는 위험·규제·제한 같은 표현이 1000단어당 평균 5개 등장했다. 오픈AI와 샘 알트먼 CEO는 1000단어당 0.6개 수준이라, 앤트로픽이 AI 위험을 8배 이상 자주 언급한 셈이다.

GLM-5.2와 클로드 오퍼스 4.8, 원샷 3D 게임 제작으로 붙여보니

요약

핵심 포인트

핵심 개념

분석

실험은 꽤 빡셌음

결과는 “싸고 열린 GLM, 빠르고 깔끔한 Opus”에 가까움

멀티모달 차이가 품질 차이로 바로 튀어나옴

벤치마크와 외부 반응도 비슷한 그림임

결론은 선택 기준이 뚜렷해졌다는 것

기술 맥락

인사이트

댓글

댓글

GLM-5.2와 클로드 오퍼스 4.8, 원샷 3D 게임 제작으로 붙여보니

요약

핵심 포인트

핵심 개념

분석

실험은 꽤 빡셌음

결과는 “싸고 열린 GLM, 빠르고 깔끔한 Opus”에 가까움

멀티모달 차이가 품질 차이로 바로 튀어나옴

벤치마크와 외부 반응도 비슷한 그림임

결론은 선택 기준이 뚜렷해졌다는 것

기술 맥락

인사이트

댓글

댓글

관련 기사