---
title: "최고의 코딩 에이전트를 맞추려 하지 마라, 여러 개 돌려서 골라라"
published: 2026-02-03T23:31:05.000Z
canonical: https://jeff.news/article/384
---
# 최고의 코딩 에이전트를 맞추려 하지 마라, 여러 개 돌려서 골라라

211개 실제 작업과 18개 에이전트 데이터 분석 결과, 최고 에이전트 하나의 승률은 24%에 불과하지만 상위 7개를 병렬로 돌리면 91%까지 올라감. 예측(prediction)이 아닌 선택(selection)으로 프레이밍을 전환하는 best-of-N 전략을 제안함.

- "어떤 코딩 에이전트가 최고인가?"라는 질문 자체가 잘못되었다는 주장임
- 에이전트 성능은 언어, 작업 유형, 시점에 따라 크게 달라지기 때문에 하나를 고르는 건 예측(prediction) 문제임
- 대신 여러 에이전트를 병렬로 돌려서 가장 나은 결과를 고르면 됨. 예측 문제를 선택(selection) 문제로 전환하는 것

## 211개 실제 작업, 18개 에이전트의 실전 데이터

- Voratiq 팀이 실제 업무에서 수개월간 이 워크플로우를 운영한 데이터임 (벤치마크가 아님)
- 작업 대부분은 풀스택 TypeScript 제품 작업: 기능 구현, 버그 수정, 리팩토링 등
- 스펙을 작성하면 여러 에이전트가 격리된 worktree에서 병렬 작업하고, 사람이 diff를 비교해서 최선을 선택함
- Bradley-Terry 모델로 Elo 스타일 레이팅을 산출함

> [!IMPORTANT]
> **핵심 수치:**
> - **Top-1 에이전트** 단독 승률: **24%**
> - **Top-3 코호트** 승률: **51%** (2배 이상)
> - **Top-7 코호트** 승률: **91%**
> - 7개 이후로는 수확 체감. 8~18위 에이전트를 추가해도 승률 개선폭이 미미함

- 상위 티어 내에서는 신뢰 구간이 크게 겹침. 1위와 2위의 레이팅 차이가 약 40포인트 겹쳐서 통계적으로 구분 불가능함
- 즉 리더보드가 무의미한 건 아니지만, 하나를 고르는 용도보다는 코호트를 구성하는 용도로 써야 함
- "토큰은 싸고, 인간 엔지니어의 시간은 비쌈" - 에이전트 몇 개를 더 돌리는 비용이 더 나은 결과물, 적은 수정, 적은 버그로 돌아옴
- 예측에서 선택으로의 프레이밍 전환이 핵심임. 최고의 에이전트를 미리 알 수 없다면, 여러 개를 돌려서 사후에 선택하는 것이 합리적인 전략

[원문 보기 (Voratiq)](https://voratiq.com/blog/selection-rather-than-prediction/)

## 핵심 포인트

- Top-1 에이전트 승률 24%, Top-3은 51%, Top-7은 91%로 코호트 효과가 극적
- 상위 티어 내 에이전트 간 신뢰 구간이 크게 겹쳐서 순위가 통계적으로 불안정함
- 7개 이후로는 수확 체감 - 8~18위 추가해도 개선폭 미미
- 토큰은 싸고 인간 엔지니어 시간은 비싸다는 경제적 논리

## 인사이트

리더보드에서 1위를 찾는 것보다 상위 티어 코호트를 구성해서 병렬 실행하는 게 실전에서 훨씬 효과적이라는 데이터 기반의 주장임. 에이전트 성능 비교에 매몰되기보다 선택 파이프라인을 구축하는 쪽이 더 현실적인 전략.
