---
title: "해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로"
published: 2025-12-15T22:39:06.000Z
canonical: https://jeff.news/article/917
---
# 해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로

MadHacks 해커톤에서 기존 Gavel 심사 알고리즘(Bradley-Terry)의 한계를 시뮬레이션으로 밝히고, Plackett-Luce 모델 기반 다자간 비교 방식으로 교체하여 정확도를 크게 개선한 이야기.

## 기존 방식의 문제

- 전통적인 루브릭 기반 심사: 심사위원이 프로젝트를 1~10점으로 채점하는 방식인데, 문제가 많음. 심사위원마다 점수 분포가 비슷해서 차이가 몇 점 안 나고, 한 명이 짜게 주면 결과가 왜곡됨. 정규화를 해도 근본적으로 "얼마나 더 좋은지"를 수치로 매기는 게 불안정함

- **Gavel** — HackMIT에서 만든 비교 기반 심사 플랫폼. Bradley-Terry 모델 기반으로 체스 Elo 시스템과 유사함. 프로젝트의 잠재 품질(q-factor)을 추정하고, 정보 획득을 최대화하는 방향으로 심사위원에게 다음 방문할 프로젝트를 지정함

## 시뮬레이션 결과: Gavel이 의외로 별로임

- 27명의 심사위원이 각 6번 비교, 80개 프로젝트, q-factor 표준편차 1.5로 시뮬레이션을 돌렸더니 — **Gavel이 최고 q-factor 프로젝트를 상위 5개에 넣는 확률이 8%**. 랜덤으로 뽑는 것(6.25%)과 별 차이가 없음

- 원인 분석:
  - 정보 획득 최대화가 실제로는 별로 강력하지 않음 — 중요하지 않은 정보(둘 다 낮은 q-factor인데 불확실성만 높은 팀)에 가중치를 줄 수 있음
  - 미완료 심사가 동시에 많아서 추정치의 신뢰성이 떨어짐
  - 프로젝트당 방문 횟수가 약 2회에 불과해서 정보 자체가 너무 적음

## 해결책: 다자간 비교 (Plackett-Luce 모델)

- 핵심 아이디어: **2개씩 비교하지 말고, 6개를 한꺼번에 순위를 매기게 하자**. A > B > C라는 3자 비교는 (A > B)와 (B > C) 두 쌍대 비교보다 정보량이 많으면서 추가 방문이 필요 없음

- Bradley-Terry를 일반화한 **Plackett-Luce 모델**을 적용. 심사위원이 방문한 6~7개 프로젝트를 전부 순위 매기게 한 뒤 베이지안 추론으로 q-factor를 추정함

- 같은 조건의 시뮬레이션에서 **최고 q-factor 프로젝트가 상위 5개에 들어갈 확률이 51%**로 뛰어오름. 심지어 단순히 1등에 1점 주는 방식도 39%가 나옴

## 실전 적용: MadHacks

- 400명 이상 참가, 114개 프로젝트의 역대 최대 규모. 프로젝트마다 최소 2회 방문을 보장하려면 심사위원 40명이 필요한데 턱없이 부족해서 운영진까지 심사에 투입

- 심사 배정 알고리즘이 실행 중에 행(hang)이 걸려서, 현장에서 급히 간단한 알고리즘을 새로 작성하는 해프닝도 있었음. 지도에 번호 누락+중복까지 발견돼서 "B75ALT" 같은 임시 번호를 만드는 카오스

- 결선에 진출한 5팀 중 3Docs가 1등, Factify가 2등, Collaboard가 3등. 심사위원들이 "중간 순위 매기기가 더 어려웠다"고 한 건 이론적 모델이 맞다는 간접 증거임

> [!TIP]
> 해커톤 운영자라면 참고 — Gavel 같은 쌍대비교 대신 심사위원에게 방문한 프로젝트 전체를 순위 매기게 하고 베이지안 Plackett-Luce 모델을 돌리는 게 훨씬 나은 결과를 줌. 구현 자체는 어렵지 않음.

## 핵심 포인트

- Gavel 시뮬레이션: 최고 프로젝트가 상위 5개에 들 확률 8% (랜덤 6.25%와 유사)
- Plackett-Luce 모델로 6개 프로젝트를 한번에 순위 매기면 같은 확률이 51%
- 114개 프로젝트, 400+ 참가자 규모의 실전 적용
- 현장에서 배정 알고리즘이 멈춰서 급히 새로 작성하는 해프닝도

## 인사이트

쌍대비교보다 다자간 비교가 정보 효율이 훨씬 높다는 직관적이면서도 수학적으로 뒷받침된 결과. 해커톤뿐 아니라 모든 주관적 평가 시스템에 적용 가능한 인사이트.