ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ai-ml 2026-03-25 약 3분

 tags

#reasoning #machine-learning

vote

북마크

원문 보기

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

1
정적 퍼즐이 아닌 동적 환경에서의 '경험 기반 학습' 평가
2
자연어 명령 없이 환경 자체에서 목표와 전략을 스스로 습득해야 함
3
AGI 달성 기준을 'AI-인간 학습 격차 = 0'으로 명확히 수치화

ARC-AGI-3는 AI 에이전트가 새로운 환경을 탐색하고 목표를 즉석 습득하는 인터랙티브 추론 벤치마크
기존처럼 정답 맞추기 방식 아님 — AI가 경험을 통해 직접 학습하는 방식으로 평가
100% 점수 = 인간만큼 효율적으로 모든 게임 클리어 가능
자연어 명령이나 사전 지식 없이, 환경에서 스스로 전략 적응 해야 함
"AI-인간 학습 격차가 있는 한 AGI 아님" — AGI 기준을 수치화하겠다는 선언

상세 내용

ARC-AGI-3가 뭔데?

ARC-AGI-3는 AI 에이전트가 얼마나 인간처럼 '적응하며 배우는가'를 테스트하는 벤치마크임. 기존 ARC 벤치마크들이 정적인 퍼즐을 풀게 했다면, 이번엔 에이전트가 낯선 환경 속에서 직접 경험하며 목표를 파악하고 전략을 수정해야 함.

자연어 명령도 없고, 미리 숨겨둔 프롬프트도 없음. 환경을 직접 인식하고, 행동을 선택하고, 결과를 보며 전략을 바꿔야 하는 구조.

어떻게 지능을 측정함?

환경은 100% 인간이 풀 수 있는 수준으로 설계
단순히 최종 답이 아니라 시간에 따른 스킬 획득 효율성 측정
희소한 피드백 속에서 장기 플래닝(Long-horizon planning) 평가
여러 스텝에 걸쳐 경험 기반 적응력 테스트

특히 포인트는 "마지막 정답"이 아니라 시간의 흐름 속 지능을 측정한다는 것. 계획 수립 범위, 기억 압축, 새 증거가 나왔을 때 믿음을 업데이트하는 능력까지 평가함.

설계 원칙 4가지

인간이 빠르게 이해하고 시작할 수 있어야 함 — 직관적인 환경
사전 지식이나 숨겨진 프롬프트 금지 — 순수 적응력만 측정
명확한 목표 + 의미 있는 피드백 제공
암기식 풀이 불가능한 참신함 — 브루트포스 메모라이제이션 방지

핵심 메시지

"AI와 인간의 학습 격차가 존재하는 한, 우리는 AGI를 달성하지 못한 것이다."

ARC-AGI-3는 이 격차를 측정 가능한 수치로 만들겠다는 게 목표임.

기존 LLM 벤치마크들이 '얼마나 많이 알고 있냐'를 측정했다면, ARC-AGI-3는 '얼마나 빠르게 새로운 걸 배우냐'로 게임 룰을 바꾼 거임. GPT-4o나 Claude가 이 테스트에서 어떤 점수 받는지 ㄹㅇ 궁금한데, 결과 나오면 AI 업계 뒤집힐 듯 ㄷㄷ

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-05-12

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml 2026-05-12

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml 2026-05-12

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml 2026-05-12

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml 2026-05-13

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

요약

핵심 포인트

분석

상세 내용

ARC-AGI-3가 뭔데?

어떻게 지능을 측정함?

설계 원칙 4가지

핵심 메시지

인사이트

댓글

댓글

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

요약

핵심 포인트

분석

상세 내용

ARC-AGI-3가 뭔데?

어떻게 지능을 측정함?

설계 원칙 4가지

핵심 메시지

인사이트

댓글

댓글

관련 기사