본문으로 건너뛰기
피드

ARC Prize 2025 결과 분석: '리파인먼트 루프'의 해

ai-ml 약 8분
vote
0
댓글
북마크

ARC Prize 2년 차 종료. 그랜드 프라이즈는 미수여됐지만, 리파인먼트 루프가 AI 추론의 핵심 패러다임으로 부상. 상용 모델 최고 37.6%, 리파인먼트 적용 시 54%까지 도달. 76K 파라미터로 사전학습 없이 ARC를 푸는 방법도 등장. ARC-AGI-3는 인터랙티브 추론을 요구하는 새 포맷으로 2026년 초 출시 예정.

  • 1

    1,455팀 참가, 1위 NVARC 24.03% 달성 ($0.20/태스크)

  • 2

    Opus 4.5 상용 최고 37.6%, Poetiq 리파인먼트로 Gemini 3 Pro 54% 도달

  • 3

    CompressARC: 76K 파라미터, 사전학습 없이 ARC-AGI-1 20% 달성

  • 4

    AI 추론이 지식에 묶여 있다는 이상한 특성 확인

  • 5

    ARC-AGI-3: 2019년 이후 첫 포맷 변경, 인터랙티브 추론 요구, 2026년 초 출시

ARC Prize 2년 차가 마무리됨. 그랜드 프라이즈는 올해도 미수여. 하지만 AI 추론 시스템의 진화 방향이 선명하게 드러난 해였음.

대회 현황

  • 총 1,455팀, 15,154건 제출 — 2024년과 거의 동일한 규모
  • Kaggle 1위 NVARC팀이 ARC-AGI-2 비공개 데이터셋에서 24.03% 달성, 태스크당 $0.20 비용 ($25k 수상)
  • 논문 제출은 90편으로 작년 47편에서 거의 배로 늘어남
  • 퀄리티가 워낙 좋아서 수상 범위를 확대 — 러너업 5팀, 아너러블 멘션 8팀 추가
  • 모든 수상 솔루션과 논문이 오픈소스로 공개됨

중요

> 최고 상용 모델: Opus 4.5 (Thinking, 64k) — 37.6%, $2.20/태스크. 최고 리파인먼트 솔루션: Poetiq + Gemini 3 Pro — 54%, $30/태스크.

올해의 키워드: 리파인먼트 루프

  • 2024년이 "AI 추론 시스템의 도래"를 포착한 해였다면, 2025년의 테마는 리파인먼트 루프
  • 핵심 개념은 단순함: 프로그램을 반복적으로 변환하면서 피드백 기반으로 목표를 향해 점진적 최적화하는 것
  • ARC-AGI가 이제 OpenAI, xAI, Anthropic, Google DeepMind 4대 랩 모델 카드에 전부 보고되는 벤치마크가 됨

구체적 접근법

  • Evolutionary Test-Time Compute (J. Berman): 자연어로 ARC 솔루션 프로그램을 진화시키는 방식
  • Evolutionary Program Synthesis (E. Pang): 같은 컨셉인데 Python으로 구현하고, 동적으로 추상화 라이브러리까지 생성
  • 공통 구조는 2단계 — 탐색(후보 생성) → 검증(피드백 신호) → 반복. 모든 학습 쌍에 정확한 답을 낼 때까지 돌림

사전학습 없는 딥러닝: 진짜 놀라운 결과들

  • Tiny Recursive Model (TRM): 겨우 7M 파라미터로 ARC-AGI-1에서 45%, ARC-AGI-2에서 8% 달성 (논문상 1위, $50k)
  • 재귀적으로 자기 답을 개선하는 구조. 최대 16스텝 동안 잠재 벡터와 답을 반복 업데이트함

그런데 더 미친 건 이거임:

  • CompressARC: 76K 파라미터로 ARC-AGI-1 평가셋 20% 달성
    • 사전학습 없음. 데이터셋 없음. 분기 탐색 없음. 오직 경사하강법만
    • 모델을 랜덤 초기화한 뒤 테스트 타임에 학습시킴
    • 하나의 모델이 하나의 태스크만 학습하고 하나의 답만 출력
    • 최소 기술 길이(MDL) 원리 기반 — VAE 손실함수로 조합 탐색을 대체
    • RTX 4070 한 장으로 퍼즐당 약 20분 소요

상용 시스템에서의 리파인먼트

  • Chain-of-thought를 "잠재 상태를 변환하는 자연어 프로그램"으로 해석할 수 있다는 관점이 흥미로움
  • 같은 ARC 태스크에 Gemini 3 Pro는 96 토큰, Gemini 3 Deep Think는 138,000 토큰 사용 — 1,400배 이상 차이
  • 2025년 하반기 모델들(Gemini 3, Claude Opus 4.5 등)은 애플리케이션 레이어에서 리파인먼트 루프를 붙여 성능을 의미 있게 끌어올릴 수 있게 됨

Poetiq 리파인먼트 효과

  • Gemini 3 Pro: 기본 31%/$0.81 → 리파인먼트 적용 시 54%/$31 (정확도 +74%, 비용 38배)
  • Claude Opus 4.5에 같은 리파인먼트 적용: 비슷한 정확도지만 비용은 약 $60/태스크 — Gemini 대비 2배

AGI 진척 상황

  • 현재 AI 추론 시스템으로 안정적 자동화가 가능한 영역의 조건 2가지:
    1. 기반 모델에 해당 태스크 도메인 지식이 충분히 포함
    2. 검증 가능한 피드백 신호가 존재
  • 이상한 점: AI의 추론 능력이 지식에 묶여 있다는 것. 인간은 그렇지 않은데, AI는 아는 만큼만 추론함
  • 근거: ARC-AGI-2 점수, 2025 IMO 금메달, 2025 ICPC 100% — 전부 AI 추론 시스템으로 달성
  • Chain-of-thought 합성의 발명과 스케일업이 트랜스포머의 발명에 버금간다는 평가

ℹ️참고

> ChatGPT 무료 사용자 중 "thinking" 모드를 한 번이라도 써본 비율은 겨우 ~10%. 현재 기술의 확산만 해도 비즈니스 영역에서 5-10년은 더 걸릴 것이라는 전망.

지식 과적합 문제

  • ARC-AGI-1/2 포맷이 슬슬 "과적합"되고 있을 가능성이 제기됨
  • 결정적 증거: Gemini 3 Deep Think 검증 과정에서 ARC 태스크라는 언급 없이도 정확한 ARC 색상 매핑을 추론에 사용
    • "Target is Green (3). Pattern is Magenta (6) Solid..." 같은 식으로
    • 2D 정수 JSON 배열의 구조와 포맷만으로 ARC임을 추론한 것
  • 공개 학습 데이터에 ARC 관련 데이터가 충분히 포함되어 있다는 강력한 시사점

ARC-AGI-3: 2019년 이후 첫 대규모 포맷 변경

  • 기존 버전이 정적 추론을 테스트했다면, 버전 3은 인터랙티브 추론을 요구
  • 필요한 새로운 AI 역량 5가지: 탐색, 계획, 기억, 목표 획득, 정렬
  • 새 스코어링 지표: 인간 vs AI의 행동 효율성(학습 효율성) 을 공식 비교하는 방식 — 최초 도입
  • 수백 개의 완전히 새로운 게임을 제작 중
  • 2026년 초 ARC Prize 2026과 함께 출시 예정

수상 목록

순위 상금 팀/저자 성과
1위 $25k NVARC ARC-AGI-2 24.03%
2위 $10k the ARChitects 16.53%
3위 $5k MindsAI 12.64%
4위 $5k Lonnie 6.67%
5위 $5k G. Barbadillo 6.53%
논문상 상금 제목
1위 $50k Less is More: Recursive Reasoning with Tiny Networks
2위 $20k Self-Improving Language Models for Evolutionary Program Synthesis
3위 $5k ARC-AGI Without Pretraining

리파인먼트 루프가 AI 추론의 새로운 스케일링 축이 되고 있지만, 추론 능력이 여전히 사전 지식에 종속된다는 한계가 AGI까지의 거리를 보여줌. ARC-AGI-3의 인터랙티브 포맷이 이 한계를 더 선명하게 드러낼 것으로 보임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.