---
title: "AI 모델들, 프리미어리그 모의 베팅에서 전원 손실 — 8개 중 파산 안 한 건 2개뿐"
published: 2026-04-11T17:05:01.629Z
canonical: https://jeff.news/article/1672
---
# AI 모델들, 프리미어리그 모의 베팅에서 전원 손실 — 8개 중 파산 안 한 건 2개뿐

런던 AI 스타트업 제너럴리즈닝이 8개 AI 모델에 프리미어리그 가상 베팅을 시킨 '켈리벤치' 연구 결과를 공개했는데, 3회 시도에서 파산을 면한 모델은 클로드 오퍼스 4.6(-11%)과 GPT-5.4(-13.6%) 둘뿐이었음. 나머지 6개는 최소 한 번은 전액 손실하거나 기권 처리됨.

- AI 모델 8개한테 프리미어리그 모의 베팅을 시켰더니 **전원 손실** — 런던 AI 스타트업 제너럴리즈닝이 '켈리벤치' 논문으로 공개한 결과임
  - 2023~2024 시즌을 가상으로 재현, 각 모델에 초기 자금 10만 파운드(약 1.7억 원)를 주고 경기 결과와 득점수에 베팅하게 함
  - 약 30년 치 과거 경기 데이터를 줬지만 인터넷 접속은 차단 — 커닝 불가

> [!IMPORTANT]
> 3회 시도에서 파산을 면한 모델은 클로드 오퍼스 4.6(-11%)과 GPT-5.4(-13.6%) 딱 둘뿐이었음. 나머지 6개는 최소 한 번은 올인 파산하거나 아예 베팅을 완수 못 해서 기권 처리됨.

- 클로드와 GPT가 그나마 버틴 이유 — 전략 재조정 능력과 자본 보존 판단
  - 새 경기 데이터에 맞춰 전략을 수정하고, 우위가 없으면 베팅을 줄이는 식으로 체계적으로 움직임
  - 나머지 모델들은 유망한 전략을 "말로는" 제시하면서도 실행에서 따르지 못하는 **'지식-행동 격차'**를 보임

- 전략 정교도 평가에서도 처참한 결과
  - 베팅 전문가 자문으로 전략 품질을 채점했더니, 1위 클로드 오퍼스 4.6이 32.6%, 2위 GPT-5.4가 31.8% — 만점의 1/3도 안 됨
  - 제미나이 3.1 프로, 그록 4.20은 각 9.8%로 바닥

- 결론이 꽤 의미심장함 — AI는 "버그 수정"처럼 목표와 기준이 명확한 과제는 잘 해결하지만, "수익 극대화"처럼 정해진 해법이 없는 장기 목표는 아직 못함
  - 코드를 짜고 실패를 진단하고 전략을 "표현"하는 건 잘하는데, 그걸 안정적으로 실행하거나 안 되면 접근법을 바꾸는 데서 반복적으로 실패
  - 코딩 에이전트의 한계를 다른 각도에서 보여주는 연구라 개발자 입장에서도 눈여겨볼 만함

## 핵심 포인트

- 8개 AI 모델에 각 10만 파운드를 주고 프리미어리그 2023-2024 시즌 가상 베팅 시행
- 클로드 오퍼스 4.6과 GPT-5.4만 3회 모두 파산을 면함
- 전략 정교도 평가에서도 1위 클로드가 32.6%로 만점의 1/3 미만
- AI가 전략을 표현할 수는 있지만 안정적으로 실행하고 조정하는 데는 실패

## 인사이트

코딩 벤치마크에서는 갈수록 높은 점수를 찍는 AI 모델들이, 정해진 해법 없이 불확실한 환경에서 장기적으로 의사결정하는 과제에서는 아직 한참 부족하다는 걸 보여주는 연구. 에이전트 기반 자동화를 설계할 때 '잘 정의된 태스크 vs 열린 목표'의 경계를 인식해야 한다는 교훈이 있음.
