ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해

ai-ml 2025-12-05 약 8분

 tags

#arc-agi #benchmark #reasoning #agi #deep-learning

vote

북마크

ARC Prize 2년 차 종료. 그랜드 프라이즈는 미수여됐지만, 리파인먼트 루프가 AI 추론의 핵심 패러다임으로 부상. 상용 모델 최고 37.6%, 리파인먼트 적용 시 54%까지 도달. 76K 파라미터로 사전학습 없이 ARC를 푸는 방법도 등장. ARC-AGI-3는 인터랙티브 추론을 요구하는 새 포맷으로 2026년 초 출시 예정.

1
1,455팀 참가, 1위 NVARC 24.03% 달성 ($0.20/태스크)
2
Opus 4.5 상용 최고 37.6%, Poetiq 리파인먼트로 Gemini 3 Pro 54% 도달
3
CompressARC: 76K 파라미터, 사전학습 없이 ARC-AGI-1 20% 달성
4
AI 추론이 지식에 묶여 있다는 이상한 특성 확인
5
ARC-AGI-3: 2019년 이후 첫 포맷 변경, 인터랙티브 추론 요구, 2026년 초 출시

ARC Prize 2년 차가 마무리됨. 그랜드 프라이즈는 올해도 미수여. 하지만 AI 추론 시스템의 진화 방향이 선명하게 드러난 해였음.

대회 현황

총 1,455팀, 15,154건 제출 — 2024년과 거의 동일한 규모
Kaggle 1위 NVARC팀이 ARC-AGI-2 비공개 데이터셋에서 24.03% 달성, 태스크당 $0.20 비용 ($25k 수상)
논문 제출은 90편으로 작년 47편에서 거의 배로 늘어남
퀄리티가 워낙 좋아서 수상 범위를 확대 — 러너업 5팀, 아너러블 멘션 8팀 추가
모든 수상 솔루션과 논문이 오픈소스로 공개됨

❗중요

> 최고 상용 모델: Opus 4.5 (Thinking, 64k) — 37.6%, $2.20/태스크. 최고 리파인먼트 솔루션: Poetiq + Gemini 3 Pro — 54%, $30/태스크.

올해의 키워드: 리파인먼트 루프

2024년이 "AI 추론 시스템의 도래"를 포착한 해였다면, 2025년의 테마는 리파인먼트 루프
핵심 개념은 단순함: 프로그램을 반복적으로 변환하면서 피드백 기반으로 목표를 향해 점진적 최적화하는 것
ARC-AGI가 이제 OpenAI, xAI, Anthropic, Google DeepMind 4대 랩 모델 카드에 전부 보고되는 벤치마크가 됨

구체적 접근법

Evolutionary Test-Time Compute (J. Berman): 자연어로 ARC 솔루션 프로그램을 진화시키는 방식
Evolutionary Program Synthesis (E. Pang): 같은 컨셉인데 Python으로 구현하고, 동적으로 추상화 라이브러리까지 생성
공통 구조는 2단계 — 탐색(후보 생성) → 검증(피드백 신호) → 반복. 모든 학습 쌍에 정확한 답을 낼 때까지 돌림

사전학습 없는 딥러닝: 진짜 놀라운 결과들

Tiny Recursive Model (TRM): 겨우 7M 파라미터로 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 달성 (논문상 1위, $50k)
재귀적으로 자기 답을 개선하는 구조. 최대 16스텝 동안 잠재 벡터와 답을 반복 업데이트함

그런데 더 미친 건 이거임:

CompressARC: 76K 파라미터로 ARC-AGI-1 평가셋 20% 달성
- 사전학습 없음. 데이터셋 없음. 분기 탐색 없음. 오직 경사하강법만
- 모델을 랜덤 초기화한 뒤 테스트 타임에 학습시킴
- 하나의 모델이 하나의 태스크만 학습하고 하나의 답만 출력
- 최소 기술 길이(MDL) 원리 기반 — VAE 손실함수로 조합 탐색을 대체
- RTX 4070 한 장으로 퍼즐당 약 20분 소요

상용 시스템에서의 리파인먼트

Chain-of-thought를 "잠재 상태를 변환하는 자연어 프로그램"으로 해석할 수 있다는 관점이 흥미로움
같은 ARC 태스크에 Gemini 3 Pro는 96 토큰, Gemini 3 Deep Think는 138,000 토큰 사용 — 1,400배 이상 차이
2025년 하반기 모델들(Gemini 3, Claude Opus 4.5 등)은 애플리케이션 레이어에서 리파인먼트 루프를 붙여 성능을 의미 있게 끌어올릴 수 있게 됨

Poetiq 리파인먼트 효과

Gemini 3 Pro: 기본 31%/$0.81 → 리파인먼트 적용 시 54%/$31 (정확도 +74%, 비용 38배)
Claude Opus 4.5에 같은 리파인먼트 적용: 비슷한 정확도지만 비용은 약 $60/태스크 — Gemini 대비 2배

AGI 진척 상황

현재 AI 추론 시스템으로 안정적 자동화가 가능한 영역의 조건 2가지:
1. 기반 모델에 해당 태스크 도메인 지식이 충분히 포함
2. 검증 가능한 피드백 신호가 존재
이상한 점: AI의 추론 능력이 지식에 묶여 있다는 것. 인간은 그렇지 않은데, AI는 아는 만큼만 추론함
근거: ARC-AGI-2 점수, 2025 IMO 금메달, 2025 ICPC 100% — 전부 AI 추론 시스템으로 달성
Chain-of-thought 합성의 발명과 스케일업이 트랜스포머의 발명에 버금간다는 평가

ℹ️참고

> ChatGPT 무료 사용자 중 "thinking" 모드를 한 번이라도 써본 비율은 겨우 ~10%. 현재 기술의 확산만 해도 비즈니스 영역에서 5-10년은 더 걸릴 것이라는 전망.

지식 과적합 문제

ARC-AGI-1/2 포맷이 슬슬 "과적합"되고 있을 가능성이 제기됨
결정적 증거: Gemini 3 Deep Think 검증 과정에서 ARC 태스크라는 언급 없이도 정확한 ARC 색상 매핑을 추론에 사용
- "Target is Green (3). Pattern is Magenta (6) Solid..." 같은 식으로
- 2D 정수 JSON 배열의 구조와 포맷만으로 ARC임을 추론한 것
공개 학습 데이터에 ARC 관련 데이터가 충분히 포함되어 있다는 강력한 시사점

ARC-AGI-3: 2019년 이후 첫 대규모 포맷 변경

기존 버전이 정적 추론을 테스트했다면, 버전 3은 인터랙티브 추론을 요구
필요한 새로운 AI 역량 5가지: 탐색, 계획, 기억, 목표 획득, 정렬
새 스코어링 지표: 인간 vs AI의 행동 효율성(학습 효율성) 을 공식 비교하는 방식 — 최초 도입
수백 개의 완전히 새로운 게임을 제작 중
2026년 초 ARC Prize 2026과 함께 출시 예정

수상 목록

순위	상금	팀/저자	성과
1위	$25k	NVARC	ARC-AGI-2 24.03%
2위	$10k	the ARChitects	16.53%
3위	$5k	MindsAI	12.64%
4위	$5k	Lonnie	6.67%
5위	$5k	G. Barbadillo	6.53%

논문상	상금	제목
1위	$50k	Less is More: Recursive Reasoning with Tiny Networks
2위	$20k	Self-Improving Language Models for Evolutionary Program Synthesis
3위	$5k	ARC-AGI Without Pretraining

리파인먼트 루프가 AI 추론의 새로운 스케일링 축이 되고 있지만, 추론 능력이 여전히 사전 지식에 종속된다는 한계가 AGI까지의 거리를 보여줌. ARC-AGI-3의 인터랙티브 포맷이 이 한계를 더 선명하게 드러낼 것으로 보임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해

요약

핵심 포인트

분석

대회 현황

올해의 키워드: 리파인먼트 루프

구체적 접근법

사전학습 없는 딥러닝: 진짜 놀라운 결과들

상용 시스템에서의 리파인먼트

Poetiq 리파인먼트 효과

AGI 진척 상황

지식 과적합 문제

ARC-AGI-3: 2019년 이후 첫 대규모 포맷 변경

수상 목록

인사이트

댓글

댓글

ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해

요약

핵심 포인트

분석

대회 현황

올해의 키워드: 리파인먼트 루프

구체적 접근법

사전학습 없는 딥러닝: 진짜 놀라운 결과들

상용 시스템에서의 리파인먼트

Poetiq 리파인먼트 효과

AGI 진척 상황

지식 과적합 문제

ARC-AGI-3: 2019년 이후 첫 대규모 포맷 변경

수상 목록

인사이트

댓글

댓글

관련 기사