---
title: "ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다"
published: 2026-03-25T15:00:00.000Z
canonical: https://jeff.news/article/162
---
# ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

- **ARC-AGI-3**는 AI 에이전트가 새로운 환경을 탐색하고 목표를 즉석 습득하는 **인터랙티브 추론 벤치마크**
- 기존처럼 정답 맞추기 방식 아님 — AI가 경험을 통해 **직접 학습**하는 방식으로 평가
- **100% 점수** = 인간만큼 효율적으로 모든 게임 클리어 가능
- 자연어 명령이나 사전 지식 없이, **환경에서 스스로 전략 적응** 해야 함
- "AI-인간 학습 격차가 있는 한 AGI 아님" — **AGI 기준을 수치화**하겠다는 선언

---

## 상세 내용

### ARC-AGI-3가 뭔데?

**ARC-AGI-3**는 AI 에이전트가 얼마나 인간처럼 '적응하며 배우는가'를 테스트하는 벤치마크임. 기존 ARC 벤치마크들이 정적인 퍼즐을 풀게 했다면, 이번엔 에이전트가 **낯선 환경 속에서 직접 경험하며 목표를 파악하고 전략을 수정**해야 함.

자연어 명령도 없고, 미리 숨겨둔 프롬프트도 없음. 환경을 직접 인식하고, 행동을 선택하고, 결과를 보며 전략을 바꿔야 하는 구조.

### 어떻게 지능을 측정함?

- 환경은 **100% 인간이 풀 수 있는 수준**으로 설계
- 단순히 최종 답이 아니라 **시간에 따른 스킬 획득 효율성** 측정
- **희소한 피드백** 속에서 장기 플래닝(Long-horizon planning) 평가
- 여러 스텝에 걸쳐 **경험 기반 적응력** 테스트

특히 포인트는 "마지막 정답"이 아니라 **시간의 흐름 속 지능**을 측정한다는 것. 계획 수립 범위, 기억 압축, 새 증거가 나왔을 때 믿음을 업데이트하는 능력까지 평가함.

### 설계 원칙 4가지

1. **인간이 빠르게 이해하고 시작할 수 있어야 함** — 직관적인 환경
2. **사전 지식이나 숨겨진 프롬프트 금지** — 순수 적응력만 측정
3. **명확한 목표 + 의미 있는 피드백** 제공
4. **암기식 풀이 불가능한 참신함** — 브루트포스 메모라이제이션 방지

### 핵심 메시지

> "AI와 인간의 학습 격차가 존재하는 한, 우리는 AGI를 달성하지 못한 것이다."

ARC-AGI-3는 이 격차를 **측정 가능한 수치**로 만들겠다는 게 목표임.

## 핵심 포인트

- 정적 퍼즐이 아닌 동적 환경에서의 '경험 기반 학습' 평가
- 자연어 명령 없이 환경 자체에서 목표와 전략을 스스로 습득해야 함
- AGI 달성 기준을 'AI-인간 학습 격차 = 0'으로 명확히 수치화

## 인사이트

기존 LLM 벤치마크들이 '얼마나 많이 알고 있냐'를 측정했다면, ARC-AGI-3는 '얼마나 빠르게 새로운 걸 배우냐'로 게임 룰을 바꾼 거임. GPT-4o나 Claude가 이 테스트에서 어떤 점수 받는지 ㄹㅇ 궁금한데, 결과 나오면 AI 업계 뒤집힐 듯 ㄷㄷ