해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로

general 2025-12-15 약 4분

 tags

#algorithm #bayesian #hackathon #statistics #ranking

vote

북마크

MadHacks 해커톤에서 기존 Gavel 심사 알고리즘(Bradley-Terry)의 한계를 시뮬레이션으로 밝히고, Plackett-Luce 모델 기반 다자간 비교 방식으로 교체하여 정확도를 크게 개선한 이야기.

1
Gavel 시뮬레이션: 최고 프로젝트가 상위 5개에 들 확률 8% (랜덤 6.25%와 유사)
2
Plackett-Luce 모델로 6개 프로젝트를 한번에 순위 매기면 같은 확률이 51%
3
114개 프로젝트, 400+ 참가자 규모의 실전 적용
4
현장에서 배정 알고리즘이 멈춰서 급히 새로 작성하는 해프닝도

기존 방식의 문제

전통적인 루브릭 기반 심사: 심사위원이 프로젝트를 1~10점으로 채점하는 방식인데, 문제가 많음. 심사위원마다 점수 분포가 비슷해서 차이가 몇 점 안 나고, 한 명이 짜게 주면 결과가 왜곡됨. 정규화를 해도 근본적으로 "얼마나 더 좋은지"를 수치로 매기는 게 불안정함
Gavel — HackMIT에서 만든 비교 기반 심사 플랫폼. Bradley-Terry 모델 기반으로 체스 Elo 시스템과 유사함. 프로젝트의 잠재 품질(q-factor)을 추정하고, 정보 획득을 최대화하는 방향으로 심사위원에게 다음 방문할 프로젝트를 지정함

시뮬레이션 결과: Gavel이 의외로 별로임

27명의 심사위원이 각 6번 비교, 80개 프로젝트, q-factor 표준편차 1.5로 시뮬레이션을 돌렸더니 — Gavel이 최고 q-factor 프로젝트를 상위 5개에 넣는 확률이 8%. 랜덤으로 뽑는 것(6.25%)과 별 차이가 없음
원인 분석:
- 정보 획득 최대화가 실제로는 별로 강력하지 않음 — 중요하지 않은 정보(둘 다 낮은 q-factor인데 불확실성만 높은 팀)에 가중치를 줄 수 있음
- 미완료 심사가 동시에 많아서 추정치의 신뢰성이 떨어짐
- 프로젝트당 방문 횟수가 약 2회에 불과해서 정보 자체가 너무 적음

해결책: 다자간 비교 (Plackett-Luce 모델)

핵심 아이디어: 2개씩 비교하지 말고, 6개를 한꺼번에 순위를 매기게 하자. A > B > C라는 3자 비교는 (A > B)와 (B > C) 두 쌍대 비교보다 정보량이 많으면서 추가 방문이 필요 없음
Bradley-Terry를 일반화한 Plackett-Luce 모델을 적용. 심사위원이 방문한 6~7개 프로젝트를 전부 순위 매기게 한 뒤 베이지안 추론으로 q-factor를 추정함
같은 조건의 시뮬레이션에서 최고 q-factor 프로젝트가 상위 5개에 들어갈 확률이 51%로 뛰어오름. 심지어 단순히 1등에 1점 주는 방식도 39%가 나옴

실전 적용: MadHacks

400명 이상 참가, 114개 프로젝트의 역대 최대 규모. 프로젝트마다 최소 2회 방문을 보장하려면 심사위원 40명이 필요한데 턱없이 부족해서 운영진까지 심사에 투입
심사 배정 알고리즘이 실행 중에 행(hang)이 걸려서, 현장에서 급히 간단한 알고리즘을 새로 작성하는 해프닝도 있었음. 지도에 번호 누락+중복까지 발견돼서 "B75ALT" 같은 임시 번호를 만드는 카오스
결선에 진출한 5팀 중 3Docs가 1등, Factify가 2등, Collaboard가 3등. 심사위원들이 "중간 순위 매기기가 더 어려웠다"고 한 건 이론적 모델이 맞다는 간접 증거임

💡팁

> 해커톤 운영자라면 참고 — Gavel 같은 쌍대비교 대신 심사위원에게 방문한 프로젝트 전체를 순위 매기게 하고 베이지안 Plackett-Luce 모델을 돌리는 게 훨씬 나은 결과를 줌. 구현 자체는 어렵지 않음.

쌍대비교보다 다자간 비교가 정보 효율이 훨씬 높다는 직관적이면서도 수학적으로 뒷받침된 결과. 해커톤뿐 아니라 모든 주관적 평가 시스템에 적용 가능한 인사이트.

이전 기사 (P)

댓글을 불러오는 중...

general 2026-07-13

폐쇄된 클라이밋닷거브, 공공 데이터 덕분에 클라이밋닷어스로 되살아나다

미국 정부의 기후 정보 사이트 Climate.gov가 예산 삭감으로 내려간 뒤, 전직 NOAA 관련자들이 Climate.us로 핵심 자료를 복원했어. 15년 넘게 쌓인 기후 지도, 교육 자료, 기후 지표 보고서, 삭제된 제5차 국가기후평가까지 되살린 배경에는 미국 정부 데이터가 법적으로 퍼블릭 도메인이라는 점이 있었어. 다만 운영은 기부에 의존하고 있어, 공공 인프라를 민간이 임시로 떠받치는 불안정한 구조도 같이 드러나.

general 2026-07-13

AI 시대에도 인간 관리자가 남는 이유는 결국 ‘책임’ 때문임

생성형 AI가 기업 경영의 많은 판단을 도와도, 인간 관리자의 역할이 사라지지는 않는다는 주장이다. 글은 공감, 검증, 실행, 책임이라는 네 가지 영역에서 AI가 아직 인간 관리자를 대체하기 어렵다고 설명한다.

general 2026-07-12

서로 1만 달러 주고받으면 매출 1만 달러? 스타트업 매출 놀이를 비꼰 풍자 사이트

LARP는 창업자끼리 같은 금액을 서로 주고받은 것처럼 장부에 기록해 매출을 만든다는 설정의 풍자 사이트다. 실제 제품, 고객, 현금 이동 없이도 연간 반복 매출(ARR)을 부풀릴 수 있다는 식으로, 스타트업의 매출 인정과 상호 거래 관행을 날카롭게 비꼰다.

general 2026-07-13

뱅크오브아메리카, 소버린 클라우드 수요 보고 아이오노스에 매수 의견

뱅크오브아메리카가 유럽 웹 호스팅·도메인 기업 아이오노스에 매수 의견과 목표주가 37유로를 제시했다. 핵심 논리는 중소기업 대상 웹 서비스, AI 업셀링, 소버린 클라우드 수요가 맞물리며 2025년부터 2028년까지 매출과 이익이 성장할 수 있다는 것이다.

general 2026-07-13

SDT·KT·스패로우까지, 국내 보안·클라우드·양자 업계 단신 모음

SDT는 양자 클라우드 플랫폼 큐레카에 양자내성암호를 적용하고 CUDA-Q 교육 모듈을 3개 국어로 제공하기로 했다. KT, 스패로우, 매스웍스, 아이씨티케이, 오케스트로 클라우드도 각각 메일보안, 앱 보안, 디지털 트윈, 양자보안, 공공 클라우드 전환 관련 소식을 냈다.

해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로

요약

핵심 포인트

분석

기존 방식의 문제

시뮬레이션 결과: Gavel이 의외로 별로임

해결책: 다자간 비교 (Plackett-Luce 모델)

실전 적용: MadHacks

인사이트

댓글

댓글

해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로

요약

핵심 포인트

분석

기존 방식의 문제

시뮬레이션 결과: Gavel이 의외로 별로임

해결책: 다자간 비교 (Plackett-Luce 모델)

실전 적용: MadHacks

인사이트

댓글

댓글

관련 기사