본문으로 건너뛰기
0
r/jeffnews HN 약 3분

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ai-ml 0

요약

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

기사 전체 정리

  • ARC-AGI-3는 AI 에이전트가 새로운 환경을 탐색하고 목표를 즉석 습득하는 인터랙티브 추론 벤치마크
  • 기존처럼 정답 맞추기 방식 아님 — AI가 경험을 통해 직접 학습하는 방식으로 평가
  • 100% 점수 = 인간만큼 효율적으로 모든 게임 클리어 가능
  • 자연어 명령이나 사전 지식 없이, 환경에서 스스로 전략 적응 해야 함
  • "AI-인간 학습 격차가 있는 한 AGI 아님" — AGI 기준을 수치화하겠다는 선언

상세 내용

ARC-AGI-3가 뭔데?

ARC-AGI-3는 AI 에이전트가 얼마나 인간처럼 '적응하며 배우는가'를 테스트하는 벤치마크임. 기존 ARC 벤치마크들이 정적인 퍼즐을 풀게 했다면, 이번엔 에이전트가 낯선 환경 속에서 직접 경험하며 목표를 파악하고 전략을 수정해야 함.

자연어 명령도 없고, 미리 숨겨둔 프롬프트도 없음. 환경을 직접 인식하고, 행동을 선택하고, 결과를 보며 전략을 바꿔야 하는 구조.

어떻게 지능을 측정함?

  • 환경은 100% 인간이 풀 수 있는 수준으로 설계
  • 단순히 최종 답이 아니라 시간에 따른 스킬 획득 효율성 측정
  • 희소한 피드백 속에서 장기 플래닝(Long-horizon planning) 평가
  • 여러 스텝에 걸쳐 경험 기반 적응력 테스트

특히 포인트는 "마지막 정답"이 아니라 시간의 흐름 속 지능을 측정한다는 것. 계획 수립 범위, 기억 압축, 새 증거가 나왔을 때 믿음을 업데이트하는 능력까지 평가함.

설계 원칙 4가지

  1. 인간이 빠르게 이해하고 시작할 수 있어야 함 — 직관적인 환경
  2. 사전 지식이나 숨겨진 프롬프트 금지 — 순수 적응력만 측정
  3. 명확한 목표 + 의미 있는 피드백 제공
  4. 암기식 풀이 불가능한 참신함 — 브루트포스 메모라이제이션 방지

핵심 메시지

"AI와 인간의 학습 격차가 존재하는 한, 우리는 AGI를 달성하지 못한 것이다."

ARC-AGI-3는 이 격차를 측정 가능한 수치로 만들겠다는 게 목표임.

핵심 포인트

  • 정적 퍼즐이 아닌 동적 환경에서의 '경험 기반 학습' 평가
  • 자연어 명령 없이 환경 자체에서 목표와 전략을 스스로 습득해야 함
  • AGI 달성 기준을 'AI-인간 학습 격차 = 0'으로 명확히 수치화

인사이트

기존 LLM 벤치마크들이 '얼마나 많이 알고 있냐'를 측정했다면, ARC-AGI-3는 '얼마나 빠르게 새로운 걸 배우냐'로 게임 룰을 바꾼 거임. GPT-4o나 Claude가 이 테스트에서 어떤 점수 받는지 ㄹㅇ 궁금한데, 결과 나오면 AI 업계 뒤집힐 듯 ㄷㄷ

댓글

댓글

댓글을 불러오는 중...

ai-ml

구글 TurboQuant: AI 모델 압축의 판도를 바꾸는 기술 등장 (ICLR 2026)

구글 리서치가 AI 모델의 핵심 병목인 키-값 캐시(KV Cache) 문제를 해결하는 압축 알고리즘 TurboQuant를 공개했음. 학습 없이 KV 캐시를 3비트까지 줄이면서도 모델 정확도 손실 제로, H100 GPU에서 최대 8배 속도 향상이라는 미친 성능을 보여줌. PolarQuant, QJL과 함께 ICLR 2026에서 발표 예정.

ai-ml

Flash-MoE: Running a 397B Parameter Model on a Laptop

Read the paper — Full technical details, 90+ experiments, and the story of how an AI and a human built this in 24 hours. Pure C/Metal inference engine that runs Qwen3.5-397B-A17B (a 397 billion param

ai-ml

Claude Code한테 내 옛날 연구 코드 맡겨봤는데 하루만에 54% 성능 향상시킴 ㄷㄷ

Karpathy의 Autoresearch 방법론에서 영감 받아서, 저자가 자기 옛날 연구 코드(eCLIP)를 Claude Code한테 던져주고 빨래/장보기 하러 갔음. 돌아왔더니 42번 실험 돌리고 Mean Rank를 344→157로 54% 줄여놨다는 레전드 썰. 근데 버그 하나 고친 게 모든 아키텍처 개선 합친 것보다 효과가 컸다는 게 포인트 ㅋㅋ

ai-ml

Walmart: ChatGPT checkout converted 3x worse than website

Search Engine Land is owned by Semrush. We remain committed to providing high-quality coverage of marketing topics. Unless otherwise noted, this page’s content was written by either an employee or a p

ai-ml

Claude Code 치트시트 레전드 정리본 떴다 - 이거 하나면 끝

Claude Code의 모든 슬래시 커맨드, 단축키, 고급 기능을 한 페이지에 때려박은 치트시트임. /btw 같은 숨겨진 꿀기능부터 Git Worktree, Voice Mode까지 ㄹㅇ 알차게 담겨있어서 북마크 필수각.