---
title: "Roblox, AI 코딩 어시스턴트 벤치마크 'OpenGameEval' 오픈소스로 공개"
published: 2025-12-17T22:54:33.000Z
canonical: https://jeff.news/article/961
---
# Roblox, AI 코딩 어시스턴트 벤치마크 'OpenGameEval' 오픈소스로 공개

Roblox가 AI 에이전트의 게임 개발 능력을 평가하는 OpenGameEval 벤치마크를 공개했다. 47개 수작업 큐레이션 테스트 케이스로 구성되며, 단순 조작은 잘 하지만 다단계 문맥 추론에서는 모든 모델이 고전하는 결과를 보였다.

- Roblox가 **OpenGameEval**이라는 AI 에이전트 벤치마크를 오픈소스로 공개했음. Roblox Studio 환경에서 AI 어시스턴트가 실제 게임 개발 작업을 얼마나 잘 수행하는지 측정하는 프레임워크임

- 일반적인 함수 레벨 코딩 챌린지가 아니라, **엔드투엔드 테스트**가 핵심임. 모델이 인스턴스 계층 탐색, 객체 상태 분석, 환경 맥락에서 사용자 의도 파악까지 복합적으로 해내야 함

- 초기 데이터셋은 전문가가 수작업으로 큐레이션한 **47개 테스트 케이스**로 구성됨. 게임 메커니즘, 환경 빌딩, 캐릭터 애니메이션, UI 디자인, 사운드 디자인 영역을 커버함. 평가 지표는 업계 표준인 pass@k, cons@k, all@k 사용

## 단순 작업 vs 문맥 추론: 극명한 격차

- 초기 테스트 결과가 꽤 흥미로움: 모델들이 **단일 조작(atomic operation)**은 거의 완벽하게 해냄. 파티클 이미터 설정이나 점프 파워 수정 같은 것들

- 반면 **다단계 문맥 추론**이 필요한 작업에선 처참한 결과를 보임. 체력 회복 시스템이나 사거리 교통 신호등 같은 복수 스크립트·클라이언트/서버 상호작용이 필요한 태스크에서 pass@k 점수가 매우 낮았음

- 재미있는 사례: "Roblox 로고처럼 생긴 큐브를 초록색으로 바꿔라"는 태스크에서, 초기에는 대상 객체 이름에 "logo"나 "Roblox"라는 단어가 없어서 모든 모델이 실패했음. 최근 평가에서는 일부 모델이 키워드 매칭을 넘어 **구조적 추론**(속성 검사, 좌표 추론)으로 해결하기 시작했다는 거임

- 로드맵: 리더보드와 데이터셋을 지속 업데이트하고, API 어댑터로 연구 파트너가 쉽게 재현 가능한 벤치마크를 돌릴 수 있게 하며, 커뮤니티 기여를 적극 수용할 계획

## 핵심 포인트

- 47개 수작업 큐레이션 테스트 케이스, 엔드투엔드 평가
- 단일 조작은 거의 완벽, 다단계 문맥 추론에서 급격한 성능 하락
- 키워드 매칭을 넘어 구조적 추론으로 해결하는 모델 등장
- pass@k, cons@k, all@k 업계 표준 지표 사용

## 인사이트

함수 레벨이 아닌 실제 개발 환경의 엔드투엔드 벤치마크라는 점에서, AI 코딩 어시스턴트의 현주소를 잘 보여주는 데이터셋.