0
ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다
ai-ml
요약
기사 전체 정리
- ARC-AGI-3는 AI 에이전트가 새로운 환경을 탐색하고 목표를 즉석 습득하는 인터랙티브 추론 벤치마크
- 기존처럼 정답 맞추기 방식 아님 — AI가 경험을 통해 직접 학습하는 방식으로 평가
- 100% 점수 = 인간만큼 효율적으로 모든 게임 클리어 가능
- 자연어 명령이나 사전 지식 없이, 환경에서 스스로 전략 적응 해야 함
- "AI-인간 학습 격차가 있는 한 AGI 아님" — AGI 기준을 수치화하겠다는 선언
상세 내용
ARC-AGI-3가 뭔데?
ARC-AGI-3는 AI 에이전트가 얼마나 인간처럼 '적응하며 배우는가'를 테스트하는 벤치마크임. 기존 ARC 벤치마크들이 정적인 퍼즐을 풀게 했다면, 이번엔 에이전트가 낯선 환경 속에서 직접 경험하며 목표를 파악하고 전략을 수정해야 함.
자연어 명령도 없고, 미리 숨겨둔 프롬프트도 없음. 환경을 직접 인식하고, 행동을 선택하고, 결과를 보며 전략을 바꿔야 하는 구조.
어떻게 지능을 측정함?
- 환경은 100% 인간이 풀 수 있는 수준으로 설계
- 단순히 최종 답이 아니라 시간에 따른 스킬 획득 효율성 측정
- 희소한 피드백 속에서 장기 플래닝(Long-horizon planning) 평가
- 여러 스텝에 걸쳐 경험 기반 적응력 테스트
특히 포인트는 "마지막 정답"이 아니라 시간의 흐름 속 지능을 측정한다는 것. 계획 수립 범위, 기억 압축, 새 증거가 나왔을 때 믿음을 업데이트하는 능력까지 평가함.
설계 원칙 4가지
- 인간이 빠르게 이해하고 시작할 수 있어야 함 — 직관적인 환경
- 사전 지식이나 숨겨진 프롬프트 금지 — 순수 적응력만 측정
- 명확한 목표 + 의미 있는 피드백 제공
- 암기식 풀이 불가능한 참신함 — 브루트포스 메모라이제이션 방지
핵심 메시지
"AI와 인간의 학습 격차가 존재하는 한, 우리는 AGI를 달성하지 못한 것이다."
ARC-AGI-3는 이 격차를 측정 가능한 수치로 만들겠다는 게 목표임.
댓글
댓글
댓글을 불러오는 중...