---
title: "ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해"
published: 2025-12-05T21:53:30.000Z
canonical: https://jeff.news/article/481
---
# ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해

ARC Prize 2년 차 종료. 그랜드 프라이즈는 미수여됐지만, 리파인먼트 루프가 AI 추론의 핵심 패러다임으로 부상. 상용 모델 최고 37.6%, 리파인먼트 적용 시 54%까지 도달. 76K 파라미터로 사전학습 없이 ARC를 푸는 방법도 등장. ARC-AGI-3는 인터랙티브 추론을 요구하는 새 포맷으로 2026년 초 출시 예정.

ARC Prize 2년 차가 마무리됨. 그랜드 프라이즈는 올해도 **미수여**. 하지만 AI 추론 시스템의 진화 방향이 선명하게 드러난 해였음.

## 대회 현황

- 총 1,455팀, 15,154건 제출 — 2024년과 거의 동일한 규모
- Kaggle 1위 NVARC팀이 ARC-AGI-2 비공개 데이터셋에서 **24.03%** 달성, 태스크당 $0.20 비용 ($25k 수상)
- 논문 제출은 90편으로 작년 47편에서 거의 배로 늘어남
- 퀄리티가 워낙 좋아서 수상 범위를 확대 — 러너업 5팀, 아너러블 멘션 8팀 추가
- 모든 수상 솔루션과 논문이 **오픈소스**로 공개됨

> [!IMPORTANT]
> 최고 상용 모델: Opus 4.5 (Thinking, 64k) — 37.6%, $2.20/태스크. 최고 리파인먼트 솔루션: Poetiq + Gemini 3 Pro — 54%, $30/태스크.

## 올해의 키워드: 리파인먼트 루프

- 2024년이 "AI 추론 시스템의 도래"를 포착한 해였다면, 2025년의 테마는 **리파인먼트 루프**
- 핵심 개념은 단순함: 프로그램을 반복적으로 변환하면서 피드백 기반으로 목표를 향해 점진적 최적화하는 것
- ARC-AGI가 이제 OpenAI, xAI, Anthropic, Google DeepMind 4대 랩 모델 카드에 전부 보고되는 벤치마크가 됨

### 구체적 접근법

- **Evolutionary Test-Time Compute** (J. Berman): 자연어로 ARC 솔루션 프로그램을 진화시키는 방식
- **Evolutionary Program Synthesis** (E. Pang): 같은 컨셉인데 Python으로 구현하고, 동적으로 추상화 라이브러리까지 생성
- 공통 구조는 2단계 — 탐색(후보 생성) → 검증(피드백 신호) → 반복. 모든 학습 쌍에 정확한 답을 낼 때까지 돌림

## 사전학습 없는 딥러닝: 진짜 놀라운 결과들

- **Tiny Recursive Model (TRM)**: 겨우 7M 파라미터로 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 달성 (논문상 1위, $50k)
- 재귀적으로 자기 답을 개선하는 구조. 최대 16스텝 동안 잠재 벡터와 답을 반복 업데이트함

그런데 더 미친 건 이거임:

- **CompressARC**: **76K 파라미터**로 ARC-AGI-1 평가셋 20% 달성
  - 사전학습 없음. 데이터셋 없음. 분기 탐색 없음. 오직 경사하강법만
  - 모델을 랜덤 초기화한 뒤 테스트 타임에 학습시킴
  - 하나의 모델이 하나의 태스크만 학습하고 하나의 답만 출력
  - 최소 기술 길이(MDL) 원리 기반 — VAE 손실함수로 조합 탐색을 대체
  - RTX 4070 한 장으로 퍼즐당 약 20분 소요

## 상용 시스템에서의 리파인먼트

- Chain-of-thought를 "잠재 상태를 변환하는 자연어 프로그램"으로 해석할 수 있다는 관점이 흥미로움
- 같은 ARC 태스크에 Gemini 3 Pro는 **96 토큰**, Gemini 3 Deep Think는 **138,000 토큰** 사용 — 1,400배 이상 차이
- 2025년 하반기 모델들(Gemini 3, Claude Opus 4.5 등)은 애플리케이션 레이어에서 리파인먼트 루프를 붙여 성능을 의미 있게 끌어올릴 수 있게 됨

### Poetiq 리파인먼트 효과

- Gemini 3 Pro: 기본 31%/$0.81 → 리파인먼트 적용 시 **54%/$31** (정확도 +74%, 비용 38배)
- Claude Opus 4.5에 같은 리파인먼트 적용: 비슷한 정확도지만 비용은 약 **$60/태스크** — Gemini 대비 2배

## AGI 진척 상황

- 현재 AI 추론 시스템으로 안정적 자동화가 가능한 영역의 조건 2가지:
  1. 기반 모델에 해당 태스크 도메인 지식이 충분히 포함
  2. 검증 가능한 피드백 신호가 존재
- 이상한 점: AI의 추론 능력이 지식에 묶여 있다는 것. 인간은 그렇지 않은데, AI는 아는 만큼만 추론함
- 근거: ARC-AGI-2 점수, 2025 IMO 금메달, 2025 ICPC 100% — 전부 AI 추론 시스템으로 달성
- Chain-of-thought 합성의 발명과 스케일업이 트랜스포머의 발명에 버금간다는 평가

> [!NOTE]
> ChatGPT 무료 사용자 중 "thinking" 모드를 한 번이라도 써본 비율은 겨우 **~10%**. 현재 기술의 확산만 해도 비즈니스 영역에서 5-10년은 더 걸릴 것이라는 전망.

## 지식 과적합 문제

- ARC-AGI-1/2 포맷이 슬슬 "과적합"되고 있을 가능성이 제기됨
- 결정적 증거: Gemini 3 Deep Think 검증 과정에서 ARC 태스크라는 언급 없이도 **정확한 ARC 색상 매핑**을 추론에 사용
  - "Target is Green (3). Pattern is Magenta (6) Solid..." 같은 식으로
  - 2D 정수 JSON 배열의 구조와 포맷만으로 ARC임을 추론한 것
- 공개 학습 데이터에 ARC 관련 데이터가 충분히 포함되어 있다는 강력한 시사점

## ARC-AGI-3: 2019년 이후 첫 대규모 포맷 변경

- 기존 버전이 **정적 추론**을 테스트했다면, 버전 3은 **인터랙티브 추론**을 요구
- 필요한 새로운 AI 역량 5가지: 탐색, 계획, 기억, 목표 획득, 정렬
- 새 스코어링 지표: 인간 vs AI의 **행동 효율성(학습 효율성)** 을 공식 비교하는 방식 — 최초 도입
- 수백 개의 완전히 새로운 게임을 제작 중
- 2026년 초 ARC Prize 2026과 함께 출시 예정

## 수상 목록

| 순위 | 상금 | 팀/저자 | 성과 |
|------|------|---------|------|
| 1위 | $25k | NVARC | ARC-AGI-2 24.03% |
| 2위 | $10k | the ARChitects | 16.53% |
| 3위 | $5k | MindsAI | 12.64% |
| 4위 | $5k | Lonnie | 6.67% |
| 5위 | $5k | G. Barbadillo | 6.53% |

| 논문상 | 상금 | 제목 |
|--------|------|------|
| 1위 | $50k | Less is More: Recursive Reasoning with Tiny Networks |
| 2위 | $20k | Self-Improving Language Models for Evolutionary Program Synthesis |
| 3위 | $5k | ARC-AGI Without Pretraining |

## 핵심 포인트

- 1,455팀 참가, 1위 NVARC 24.03% 달성 ($0.20/태스크)
- Opus 4.5 상용 최고 37.6%, Poetiq 리파인먼트로 Gemini 3 Pro 54% 도달
- CompressARC: 76K 파라미터, 사전학습 없이 ARC-AGI-1 20% 달성
- AI 추론이 지식에 묶여 있다는 이상한 특성 확인
- ARC-AGI-3: 2019년 이후 첫 포맷 변경, 인터랙티브 추론 요구, 2026년 초 출시

## 인사이트

리파인먼트 루프가 AI 추론의 새로운 스케일링 축이 되고 있지만, 추론 능력이 여전히 사전 지식에 종속된다는 한계가 AGI까지의 거리를 보여줌. ARC-AGI-3의 인터랙티브 포맷이 이 한계를 더 선명하게 드러낼 것으로 보임.
