본문으로 건너뛰기
피드

해커톤 심사 알고리즘을 새로 만들었더니 최고 프로젝트 결선 진출률이 6%에서 51%로

general 약 4분
vote
0
댓글
북마크

MadHacks 해커톤에서 기존 Gavel 심사 알고리즘(Bradley-Terry)의 한계를 시뮬레이션으로 밝히고, Plackett-Luce 모델 기반 다자간 비교 방식으로 교체하여 정확도를 크게 개선한 이야기.

  • 1

    Gavel 시뮬레이션: 최고 프로젝트가 상위 5개에 들 확률 8% (랜덤 6.25%와 유사)

  • 2

    Plackett-Luce 모델로 6개 프로젝트를 한번에 순위 매기면 같은 확률이 51%

  • 3

    114개 프로젝트, 400+ 참가자 규모의 실전 적용

  • 4

    현장에서 배정 알고리즘이 멈춰서 급히 새로 작성하는 해프닝도

기존 방식의 문제

  • 전통적인 루브릭 기반 심사: 심사위원이 프로젝트를 1~10점으로 채점하는 방식인데, 문제가 많음. 심사위원마다 점수 분포가 비슷해서 차이가 몇 점 안 나고, 한 명이 짜게 주면 결과가 왜곡됨. 정규화를 해도 근본적으로 "얼마나 더 좋은지"를 수치로 매기는 게 불안정함

  • Gavel — HackMIT에서 만든 비교 기반 심사 플랫폼. Bradley-Terry 모델 기반으로 체스 Elo 시스템과 유사함. 프로젝트의 잠재 품질(q-factor)을 추정하고, 정보 획득을 최대화하는 방향으로 심사위원에게 다음 방문할 프로젝트를 지정함

시뮬레이션 결과: Gavel이 의외로 별로임

  • 27명의 심사위원이 각 6번 비교, 80개 프로젝트, q-factor 표준편차 1.5로 시뮬레이션을 돌렸더니 — Gavel이 최고 q-factor 프로젝트를 상위 5개에 넣는 확률이 8%. 랜덤으로 뽑는 것(6.25%)과 별 차이가 없음

  • 원인 분석:

    • 정보 획득 최대화가 실제로는 별로 강력하지 않음 — 중요하지 않은 정보(둘 다 낮은 q-factor인데 불확실성만 높은 팀)에 가중치를 줄 수 있음
    • 미완료 심사가 동시에 많아서 추정치의 신뢰성이 떨어짐
    • 프로젝트당 방문 횟수가 약 2회에 불과해서 정보 자체가 너무 적음

해결책: 다자간 비교 (Plackett-Luce 모델)

  • 핵심 아이디어: 2개씩 비교하지 말고, 6개를 한꺼번에 순위를 매기게 하자. A > B > C라는 3자 비교는 (A > B)와 (B > C) 두 쌍대 비교보다 정보량이 많으면서 추가 방문이 필요 없음

  • Bradley-Terry를 일반화한 Plackett-Luce 모델을 적용. 심사위원이 방문한 6~7개 프로젝트를 전부 순위 매기게 한 뒤 베이지안 추론으로 q-factor를 추정함

  • 같은 조건의 시뮬레이션에서 최고 q-factor 프로젝트가 상위 5개에 들어갈 확률이 51%로 뛰어오름. 심지어 단순히 1등에 1점 주는 방식도 39%가 나옴

실전 적용: MadHacks

  • 400명 이상 참가, 114개 프로젝트의 역대 최대 규모. 프로젝트마다 최소 2회 방문을 보장하려면 심사위원 40명이 필요한데 턱없이 부족해서 운영진까지 심사에 투입

  • 심사 배정 알고리즘이 실행 중에 행(hang)이 걸려서, 현장에서 급히 간단한 알고리즘을 새로 작성하는 해프닝도 있었음. 지도에 번호 누락+중복까지 발견돼서 "B75ALT" 같은 임시 번호를 만드는 카오스

  • 결선에 진출한 5팀 중 3Docs가 1등, Factify가 2등, Collaboard가 3등. 심사위원들이 "중간 순위 매기기가 더 어려웠다"고 한 건 이론적 모델이 맞다는 간접 증거임

💡

> 해커톤 운영자라면 참고 — Gavel 같은 쌍대비교 대신 심사위원에게 방문한 프로젝트 전체를 순위 매기게 하고 베이지안 Plackett-Luce 모델을 돌리는 게 훨씬 나은 결과를 줌. 구현 자체는 어렵지 않음.

쌍대비교보다 다자간 비교가 정보 효율이 훨씬 높다는 직관적이면서도 수학적으로 뒷받침된 결과. 해커톤뿐 아니라 모든 주관적 평가 시스템에 적용 가능한 인사이트.

댓글

댓글

댓글을 불러오는 중...

general

Last.fm, 소유권 바뀌고 독립 회사로 새 출발

Last.fm이 소유권 변경을 거쳐 독립 회사로 운영된다고 밝혔다. 계정, 청취 기록, 스크로블, Pro 구독, API 기능은 그대로 유지되며 사용자 데이터 처리 방식도 바뀌지 않는다고 안내했다.

general

구글이 “사람들은 AI 모드를 좋아한다”고 하자 덕덕고 방문이 28% 가까이 늘어남

구글 검색이 AI 모드와 AI 개요를 전면에 밀어붙이는 사이, AI 없는 검색을 내세운 덕덕고 쪽 트래픽이 눈에 띄게 뛰었다. 덕덕고는 “사람들이 원하는 건 AI 자체의 찬반이 아니라 선택권”이라고 보고 있다.

general

경기도, 도민 15만 명 대상 AI·디지털 교육 시작

경기도가 2026년 AI디지털배움터를 열고 약 15만 명을 대상으로 스마트폰, 키오스크, 생성형 AI, 업무 자동화 교육을 운영해. 고령층과 정보취약지역 주민을 위한 찾아가는 교육, 청년·소상공인 대상 AI 활용 교육까지 범위를 넓힌 게 특징이야.

general

NIA “공공 AX 표준 만들고, 정책부터 현장 구현까지 직접 잇겠다”

한국지능정보사회진흥원(NIA)이 AI 기본법에 따른 인공지능정책센터로 지정되며 공공 부문의 AI 전환을 지원하겠다는 방향을 밝혔다. 핵심은 부처·지자체가 각자 따로 AI를 도입하다 생기는 중복 투자와 표준 부재를 줄이고, 일부 유스케이스는 정책 설계에서 구현까지 직접 밀어붙이겠다는 것.

general

최악의 면접은 코딩 테스트가 아니라 ‘무단 심리평가’였다

한 엔지니어가 정신건강 스타트업의 창업 엔지니어 면접에서 겪은 일을 공유했다. 기술 평가도 하기 전에 90분짜리 컬처핏 인터뷰에서 인생의 가장 힘든 날, 가족 문제, 실패한 관계 같은 사적인 이야기를 끌어냈고, 다음 날 한 줄짜리 탈락 메일을 받았다는 내용이다.