최신 AI 모델 8개한테 프리미어리그 베팅 시켜봤더니 — 전원 손실

ai-ml 2026-04-12 약 4분

 tags

#ai-benchmark #llm #gpt #claude #sports-betting

vote

북마크

영국 AI 스타트업이 GPT-5.4, 클로드 오퍼스 4.6 등 8개 모델에 프리미어리그 베팅을 시킨 '켈리벤치' 실험 결과를 공개함. 파산을 면한 건 클로드(-11%)와 GPT-5.4(-13.6%) 둘뿐이었고, 현실의 동적 환경에서 AI 성능이 아직 부족하다는 결론.

1
8개 최신 AI 모델 전원 손실, 파산 안 한 건 클로드와 GPT-5.4뿐
2
클로드 오퍼스 4.6이 최고 성적이지만 평균 -11%
3
정적 벤치마크 vs 동적 현실 환경 간 AI 성능 격차를 보여주는 실험

영국 AI 스타트업 제너럴리즈닝이 최신 AI 모델 8개한테 프리미어리그 베팅을 시켜봤는데 — 전원 손실
- 2023-2024시즌을 가상 재현하고, 모델별로 초기 자본 10만 파운드(약 2억원)씩 줌
- 인터넷 차단 상태에서 과거 데이터만으로 수익 극대화 모델 구축 후 매 경기일 베팅
- 모델별 3회 시도, 경기 후에는 결과와 선수별 상세 통계 피드백 제공
- 대상: GPT-5.4, 클로드 오퍼스 4.6, 제미나이 3.1 프로, 그록 4.20 등 8개
그나마 선방한 건 클로드 오퍼스 4.6 — 그래도 평균 수익률 -11%
- 세 번 중 가장 나은 시도도 -0.2%에 그침 (본전치기도 못 함)
- 파산을 면한 건 클로드와 GPT-5.4(-13.6%) 둘뿐

❗중요

> 8개 최신 AI 모델 중 파산 안 한 건 딱 2개. AI가 정적 벤치마크에서는 뛰어나도, 계속 변하는 현실 환경에서는 아직 한참 부족하다는 걸 보여주는 실험임.

가장 극적이었던 건 제미나이 3.1 프로
- 한 번은 34% 수익을 올렸지만, 다른 시도에서 파산 — 평균 -43.3%
- 그록 4.20은 한 번 파산에 나머지 두 번은 베팅 자체를 완수하지 못함
연구진의 핵심 메시지: AI가 목표가 명확한 절차적 작업에는 뛰어나지만, 현실처럼 환경이 계속 변하는 상황에서의 성능은 제대로 검증되지 않고 있음
- 선수 부상 후 기량 변화처럼 시간에 따라 조건이 달라지는 상황에서 AI가 적응하는 데 한계를 보임
- 논문은 아직 동료 평가를 거치지 않은 상태
CEO 로스 테일러: "AI 자동화에 대한 기대가 크지만, 장기적인 환경에서 AI를 평가하는 시도는 많지 않다"
- 현실 세계의 복잡성을 반영한 평가가 필요하다고 강조함

기술 맥락

이 실험이 재밌는 이유는 AI 벤치마크의 한계를 정면으로 보여주기 때문이에요. 보통 AI 성능은 고정된 테스트셋에서 측정하는데, 현실 세계는 시시각각 변하거든요
'켈리벤치'라는 이름은 켈리 기준(Kelly Criterion)에서 따온 거예요. 확률 기반으로 최적 베팅 금액을 정하는 수학적 전략인데, AI가 이 전략을 제대로 구현하지 못했다는 점이 시사적이에요
AI 모델이 절차적 작업(코딩, 요약, 번역)에서 뛰어난 건 학습 데이터에 정답이 있기 때문이에요. 반면 스포츠 베팅은 불확실성이 본질인 영역이라 과거 패턴만으로는 미래를 예측하기 어렵거든요

AI 벤치마크가 대부분 고정된 테스트셋 기반인데, 이 실험은 시간에 따라 조건이 변하는 현실 환경에서의 AI 한계를 보여줌. 에이전트 AI 시대에 꼭 필요한 종류의 평가.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

최신 AI 모델 8개한테 프리미어리그 베팅 시켜봤더니 — 전원 손실

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

최신 AI 모델 8개한테 프리미어리그 베팅 시켜봤더니 — 전원 손실

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사