본문으로 건너뛰기
피드

바이트댄스, 에이전트 장기 업무 벤치마크 '엣지벤치' 공개

ai-ml 약 7분
vote
0
댓글
북마크

바이트댄스 시드 AI가 AI 에이전트에게 12~72시간짜리 실무형 과제를 맡기는 오픈소스 벤치마크 엣지벤치를 공개했다. 연구진은 3만8000시간의 상호작용 데이터를 분석해 에이전트 성능이 시간과 피드백에 따라 S자형 성장 곡선을 보이며, 학습 속도는 약 3개월마다 2배 빨라진다고 주장했다.

  • 1

    엣지벤치는 6개 범주 134개 장기 과제로 구성됐고, 이 중 51개가 먼저 공개됨

  • 2

    클로드 오퍼스 4.8은 12시간 기준 51.3점으로 GPT-5.5의 48.4점을 앞섬

  • 3

    컨텍스트 창 100만 토큰 모델은 12시간 성능 상한 97.8점으로 20만 토큰 모델의 81.5점을 크게 앞섬

  • 4

    장기 업무에서는 단순 샘플링보다 실패 로그와 피드백을 누적하는 테스트 타임 컴퓨트가 핵심 변수로 떠오름

에이전트 벤치마크가 '한 번 답하기'에서 '며칠 버티기'로 넘어감

  • 바이트댄스 시드 AI가 공개한 엣지벤치는 기존 LLM 벤치마크랑 결이 완전히 다름

    • 보통 벤치마크는 정적인 데이터셋에서 정답률을 재는 식인데, 엣지벤치는 AI 에이전트에게 최소 12시간에서 최대 72시간짜리 과제를 맡김
    • 핵심은 지금 몇 점짜리 모델이냐가 아니라, 시간이 지나면서 실패를 고치고 얼마나 배울 수 있느냐임
  • 과제 난도도 장난감 테스트가 아니라 거의 실무형에 가까움

    • 중력파 관측 데이터에서 신호 찾기, CPU 기초 설계, 재무·의료·법률 보고서 작성, 수학 정리의 컴퓨터 검증형 증명 같은 6개 범주 134개 과제로 구성됨
    • 과제 하나 설계에 전문가가 평균 57.2시간, 최대 320시간을 썼고, 현재 51개 과제가 먼저 오픈소스로 공개됨

중요

> 연구팀은 3만8000시간의 에이전트 상호작용 데이터를 분석했고, 성능 성장 곡선의 결정계수 R²가 0.998이라고 주장함. 예측 모델과 실제 성장 수치가 99.8% 맞아떨어졌다는 얘기라 꽤 센 주장임.

오래 생각하는 모델이 진짜로 더 잘하나

  • 연구진이 본 성장 패턴은 S자형 성장 법칙임

    • 처음에는 성능이 천천히 오르다가, 환경 피드백을 충분히 받으면 가파르게 좋아지고, 이후 어느 지점에서 수렴하는 형태임
    • 단순히 답을 여러 개 뽑아 운 좋게 맞히는 단순 샘플링과는 다르다는 게 연구팀의 해석임
  • 클로드 오퍼스 4.8 실험에서는 실패 경험을 누적한 쪽이 확실히 앞섰음

    • 12시간 동안 이전 실패를 기억하며 학습한 그룹은 43.0점을 기록함
    • 매 시도마다 처음부터 다시 시작한 그룹은 36.1점에 그쳤음
    • 에이전트가 실패를 그냥 버리는 게 아니라 다음 시도에 재사용할 때 성능이 오른다는 얘기임
  • GPT-5.5의 중력파 과제 기록에서는 꽤 흥미로운 장면도 나옴

    • 총 247회 시도 중 단순 파라미터 조정이 아니라 문제를 완전히 재정의하며 돌파구를 찾은 순간이 7회 포착됨
    • 큰 실패를 작은 문제로 쪼개고, 병목을 찾아 다시 접근하는 식의 에이전트다운 행동이 관찰됐다는 것임

컨텍스트 창이 장기 업무의 메모리 병목이 됨

  • 장기 에이전트 업무에서 가장 중요한 하드웨어 변수는 컨텍스트 창으로 나타남

    • 100만 토큰 컨텍스트 모델은 20만 토큰 모델보다 테스트 전 구간에서 우위였음
    • 12시간 시점의 성능 상한도 100만 토큰 모델은 97.8점, 20만 토큰 모델은 81.5점으로 갈림
  • 이건 개발자 입장에서도 직관적임

    • 긴 디버깅을 할 때 이전 빌드 오류, 실패한 접근, 실험 로그를 잊어버리면 같은 삽질을 반복함
    • 에이전트도 마찬가지로 긴 작업에서는 똑똑함보다 '안 까먹는 능력'이 성능을 좌우할 수 있음
  • 리더보드에서는 클로드 오퍼스 4.8이 12시간 기준 51.3점으로 1위임

    • GPT-5.5는 48.4점으로 뒤를 이었고, GPT-5.4, GLM-5.1, 딥시크 V4-프로가 그다음임
    • 2025년 9월부터 2026년 5월 사이 모델들을 비교하면 학습 속도가 약 89일마다 2배 빨라지는 경향도 관측됨

진짜 병목은 모델보다 피드백 환경일 수 있음

  • 같은 날 에포크 연구소는 보드게임 가이드 기반 반복 학습에서는 모델 성장이 거의 없었다는 반대 결과를 냄

    • 바이트댄스 쪽 해석은 단순함. 장난감 과제는 30분이면 배울 내용이 바닥나지만, 현실 업무는 계속 쪼갤 문제와 고칠 오류가 나온다는 것임
    • 결국 에이전트가 성장하려면 모델 자체보다 환경이 주는 피드백의 질이 중요하다는 주장으로 이어짐
  • 바이트댄스는 장기 평가용 인프라 S포지도 같이 공개함

    • 도커 이미지로 작업 환경을 격리해 에이전트의 시스템 해킹이나 우회를 막고, 쿠버네티스 백엔드로 대규모 병렬 실행을 지원함
    • 엣지벤치 데이터셋은 크리에이티브 커먼스 4.0, S포지 코드는 아파치 2.0 라이선스로 공개됨
  • 오픈AI의 노엄 브라운도 서울 행사에서 비슷한 메시지를 냄

    • 단발성 벤치마크로는 모델의 진짜 성능과 위험을 측정하기 어렵고, 추론 시간·인프라 비용·생성 토큰 수를 고려하는 평가 체계가 필요하다는 주장임
    • 이 흐름대로면 앞으로 모델 평가는 '몇 초 만에 답했나'보다 '얼마나 오래 굴렸을 때 어디까지 가나'가 더 중요해질 수 있음

기술 맥락

  • 이번 선택의 핵심은 벤치마크 대상을 정답률에서 작업 지속 능력으로 바꾼 거예요. 에이전트가 실제 업무에서 가치를 내려면 한 번 멋진 답을 내는 것보다, 실패 로그를 읽고 다음 시도를 고치는 루프가 훨씬 중요하거든요.

  • 그래서 컨텍스트 창이 중요하게 나온 것도 자연스러워요. 장기 과제에서는 이전 명령, 오류 메시지, 중간 산출물, 실패한 가설이 모두 다음 판단의 재료라서, 기억 범위가 좁으면 같은 문제를 계속 다시 푸는 구조가 돼요.

  • S포지 같은 격리 실행 환경이 같이 나온 이유도 있어요. 에이전트에게 72시간짜리 실제 작업을 맡기면 파일 시스템, 빌드 도구, 네트워크 같은 실행 환경을 만지게 되니까, 평가 인프라가 허술하면 모델 성능이 아니라 환경 우회 능력을 재게 되거든요.

  • 개발팀 입장에서는 이 흐름이 꽤 현실적인 신호예요. 앞으로 코딩 에이전트나 운영 자동화 에이전트를 붙일 때 모델명만 고르는 게 아니라, 장기 메모리, 로그 보존, 재시도 정책, 샌드박스까지 하나의 시스템으로 봐야 해요.

이 뉴스의 핵심은 모델 크기 경쟁만으로는 설명이 안 되는 축이 생겼다는 점임. 앞으로 에이전트 제품을 만드는 팀은 모델 성능표만 볼 게 아니라, 얼마나 오래 기억하고 피드백 루프를 굴릴 수 있는지까지 인프라 설계에 넣어야 함.

댓글

댓글

댓글을 불러오는 중...

ai-ml

노타의 VLM 영상 관제 솔루션, 네이버클라우드 마켓플레이스에 올라감

노타가 비전 언어 모델 기반 영상 관제 솔루션 NVA를 네이버클라우드 마켓플레이스에 등록했다. NVA는 단순 객체 탐지를 넘어 영상 속 상황과 맥락을 텍스트로 설명하고 이상 상황을 분석·요약하는 솔루션이다. 산업안전, 교통, 재난 대응, 공공 선별관제 등으로 적용 범위를 넓히고 있으며 2026년 상반기 수주는 전년 동기 대비 1.8배 늘었다.

ai-ml

메타 클라우드설, 국내 CSP 밸류에이션에도 불 붙일까

메타가 자체 AI 인프라를 외부에 판매하는 클라우드 사업을 검토하면서 AI 설비투자를 비용이 아니라 수익 자산으로 보는 시각이 커지고 있다. 한화투자증권은 메타가 단기적으로 AWS, Azure, GCP를 대체하기는 어렵지만, AI 인프라 회수 논리가 국내 CSP와 소프트웨어 기업 가치에도 영향을 줄 수 있다고 봤다. 네이버는 B2B 소버린 AI와 공공 클라우드, 삼성SDS는 MSP 매출 기대가 언급됐다.

ai-ml

메타의 클라우드 진출, 그냥 GPU 장사보다 ‘AI 정제소’ 싸움이 더 중요해졌다는 신호

메타가 남는 AI 컴퓨팅을 외부에 판매하는 클라우드 사업을 검토 중이라는 보도는 AI 인프라 경제가 바뀌고 있음을 보여준다. 단순 GPU 임대보다 모델, 소프트웨어, 칩을 같이 최적화해 추론을 더 비싸게 파는 쪽이 진짜 마진을 만든다는 분석이다. 한국의 800조원 규모 AI 인프라 투자도 하드웨어 구축을 넘어 이를 지휘할 소프트웨어와 모델 오케스트레이션이 핵심 과제로 떠오른다.

ai-ml

메타의 AI 전략이 흔들리는 이유: 라마4 논란부터 인프라 재판매까지

메타가 AI 컴퓨팅 파워를 외부에 판매하는 클라우드 사업을 검토하는 가운데, 라마4 실패와 조직 혼선, 막대한 설비투자 부담이 함께 부각되고 있다. 오픈소스 전략의 흔들림, 인재 영입 경쟁, 내부 사기 저하까지 겹치며 메타의 AI 전략이 방향을 잃었다는 분석이 나온다.

ai-ml

GPU 부족 시대, 모델 압축으로 한 대가 두세 대 몫 하게 만들겠다는 백보드

백보드닷아이오가 AI 모델을 최대 70% 압축해 GPU 효율을 높이는 백보드퀀트와 기업용 AI 운영 스택을 발표했다. 내부 테스트에서는 풀프리시전 모델과 비슷한 정확도를 유지하면서 추론 속도를 최대 2.7배 높였고, 코딩 도구 비용도 최대 90% 낮출 수 있다고 주장했다.