---
title: "최신 AI 모델 8개한테 프리미어리그 베팅 시켜봤더니 — 전원 손실"
published: 2026-04-12T07:05:01.927Z
canonical: https://jeff.news/article/1679
---
# 최신 AI 모델 8개한테 프리미어리그 베팅 시켜봤더니 — 전원 손실

영국 AI 스타트업이 GPT-5.4, 클로드 오퍼스 4.6 등 8개 모델에 프리미어리그 베팅을 시킨 '켈리벤치' 실험 결과를 공개함. 파산을 면한 건 클로드(-11%)와 GPT-5.4(-13.6%) 둘뿐이었고, 현실의 동적 환경에서 AI 성능이 아직 부족하다는 결론.

- 영국 AI 스타트업 제너럴리즈닝이 최신 AI 모델 8개한테 프리미어리그 베팅을 시켜봤는데 — 전원 손실
  - 2023-2024시즌을 가상 재현하고, 모델별로 초기 자본 10만 파운드(약 2억원)씩 줌
  - 인터넷 차단 상태에서 과거 데이터만으로 수익 극대화 모델 구축 후 매 경기일 베팅
  - 모델별 3회 시도, 경기 후에는 결과와 선수별 상세 통계 피드백 제공
  - 대상: GPT-5.4, 클로드 오퍼스 4.6, 제미나이 3.1 프로, 그록 4.20 등 8개

- 그나마 선방한 건 클로드 오퍼스 4.6 — 그래도 평균 수익률 -11%
  - 세 번 중 가장 나은 시도도 -0.2%에 그침 (본전치기도 못 함)
  - 파산을 면한 건 클로드와 GPT-5.4(-13.6%) 둘뿐

> [!IMPORTANT]
> 8개 최신 AI 모델 중 파산 안 한 건 딱 2개. AI가 정적 벤치마크에서는 뛰어나도, 계속 변하는 현실 환경에서는 아직 한참 부족하다는 걸 보여주는 실험임.

- 가장 극적이었던 건 제미나이 3.1 프로
  - 한 번은 34% 수익을 올렸지만, 다른 시도에서 파산 — 평균 -43.3%
  - 그록 4.20은 한 번 파산에 나머지 두 번은 베팅 자체를 완수하지 못함

- 연구진의 핵심 메시지: AI가 목표가 명확한 절차적 작업에는 뛰어나지만, 현실처럼 환경이 계속 변하는 상황에서의 성능은 제대로 검증되지 않고 있음
  - 선수 부상 후 기량 변화처럼 시간에 따라 조건이 달라지는 상황에서 AI가 적응하는 데 한계를 보임
  - 논문은 아직 동료 평가를 거치지 않은 상태

- CEO 로스 테일러: "AI 자동화에 대한 기대가 크지만, 장기적인 환경에서 AI를 평가하는 시도는 많지 않다"
  - 현실 세계의 복잡성을 반영한 평가가 필요하다고 강조함

---

## 기술 맥락

- 이 실험이 재밌는 이유는 AI 벤치마크의 한계를 정면으로 보여주기 때문이에요. 보통 AI 성능은 고정된 테스트셋에서 측정하는데, 현실 세계는 시시각각 변하거든요
- '켈리벤치'라는 이름은 켈리 기준(Kelly Criterion)에서 따온 거예요. 확률 기반으로 최적 베팅 금액을 정하는 수학적 전략인데, AI가 이 전략을 제대로 구현하지 못했다는 점이 시사적이에요
- AI 모델이 절차적 작업(코딩, 요약, 번역)에서 뛰어난 건 학습 데이터에 정답이 있기 때문이에요. 반면 스포츠 베팅은 불확실성이 본질인 영역이라 과거 패턴만으로는 미래를 예측하기 어렵거든요

## 핵심 포인트

- 8개 최신 AI 모델 전원 손실, 파산 안 한 건 클로드와 GPT-5.4뿐
- 클로드 오퍼스 4.6이 최고 성적이지만 평균 -11%
- 정적 벤치마크 vs 동적 현실 환경 간 AI 성능 격차를 보여주는 실험

## 인사이트

AI 벤치마크가 대부분 고정된 테스트셋 기반인데, 이 실험은 시간에 따라 조건이 변하는 현실 환경에서의 AI 한계를 보여줌. 에이전트 AI 시대에 꼭 필요한 종류의 평가.
