---
title: "Poetiq, ARC-AGI-2 벤치마크 54% 달성 — 비용은 기존 최고 기록의 절반 이하"
published: 2025-12-05T22:36:22.000Z
canonical: https://jeff.news/article/476
---
# Poetiq, ARC-AGI-2 벤치마크 54% 달성 — 비용은 기존 최고 기록의 절반 이하

Poetiq이 ARC-AGI-2 벤치마크에서 54% 정확도로 최초 50% 돌파에 성공. 문제당 $30.57로 이전 최고 기록(45%, $77.16) 대비 정확도는 높이고 비용은 절반 넘게 줄임. 자체 모델 없이 Gemini 3 Pro 위에 메타 시스템을 얹는 방식.

- Poetiq이라는 팀이 ARC-AGI-2 벤치마크에서 **54% 정확도**를 달성하며 최초로 50% 벽을 뚫었음
- 이전 최고 기록은 Gemini 3 Deep Think의 45%였는데, 문제당 비용이 $77.16이었음. Poetiq은 $30.57로 **절반도 안 되는 비용**에 이걸 해낸 거임
- 핵심 접근법은 "learned test time reasoning"이라는 건데, 자체 대형 모델을 만들거나 파인튜닝할 필요 없이 기존 프론티어 모델을 활용하는 메타 시스템을 씀
- Gemini 3 Pro 위에 Poetiq의 메타 시스템을 얹어서 솔루션의 모든 부분을 최적화하는 구조임
- 미친 건 Gemini 3 출시 후 **몇 시간 만에** 이 결과를 냈다는 거임. 모델 자체를 건드리지 않으니까 가능한 일
- 메타 시스템은 문제를 풀 때마다 그 풀이 방법을 학습해서 점점 나아지는 구조이고, 다양한 종류의 태스크가 많을수록 성능이 좋아짐
- 기존 대형 시스템 안에 있는 AI 컴포넌트도 최적화할 수 있다고 함
- 궁극적 비전은 모델 튜닝 없이도 프론티어 모델에 이미 들어 있는 지식을 더 잘 뽑아내는 것. 지식 추출 메커니즘 자체를 LLM 친화적으로 바꾸겠다는 거임

## 핵심 포인트

- ARC-AGI-2에서 54% 정확도로 최초 50% 벽 돌파
- 문제당 비용 $30.57로 이전 최고($77.16)의 절반 이하
- Gemini 3 출시 후 몇 시간 만에 달성 — 자체 모델 구축이나 파인튜닝 불필요
- 메타 시스템이 문제를 풀수록 학습하며 점점 개선되는 구조

## 인사이트

프론티어 모델을 직접 만들지 않고도 메타 시스템으로 SOTA를 찍을 수 있다는 건, AI 연구의 경쟁 구도가 '누가 더 큰 모델을 만드나'에서 '누가 기존 모델을 더 잘 쓰나'로 바뀔 수 있음을 보여줌.
