0
$500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템
ai-ml
요약
기사 전체 정리
$500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템
ATLAS(Adaptive Test-time Learning and Autonomous Specialization)라는 시스템이 RTX 5060 Ti 16GB 단일 GPU에서 frozen Qwen3-14B-Q4_K_M 모델로 LiveCodeBench pass@1-v(k=3) **74.6%**를 달성했다는 거임. V2에서 36~41%였던 걸 거의 두 배 끌어올린 셈.
핵심 파이프라인 구조
PlanSearch + BudgetForcing + Geometric Lens + PR-CoT repair 파이프라인으로 동작함:
- Phase 1 (PlanSearch + BudgetForcing + DivSampling): 베이스라인 54.9%에서 67.3%로 +12.4pp 상승. 제약 조건 추출하고 다양한 플랜 생성하는 단계
- Phase 2 (Geometric Lens 라우팅): +0.0pp. 학습 데이터가 60개밖에 안 돼서 사실상 기여 없음. V3.1에서 재학습 예정
- Phase 3 (Self-verified PR-CoT repair): +7.3pp 추가 상승. 모델이 자체 테스트 케이스 생성해서 반복 수정하는 방식. 42개 실패 태스크 중 36개 복구(85.7%)
다른 모델과 비교
| 시스템 | LCB pass@1 | 태스크당 비용 |
|---|---|---|
| DeepSeek V3.2 Reasoning | 86.2% | ~$0.002 |
| GPT-5 (high) | 84.6% | ~$0.043 |
| ATLAS V3 | 74.6% | ~$0.004 |
| Claude 4.5 Sonnet | 71.4% | ~$0.066 |
| Claude 4 Sonnet | 65.5% | ~$0.066 |
Claude 4.5 Sonnet(71.4%)보다 3.2pp 높고, 비용은 전기료 기준 태스크당 $0.004로 Claude API 대비 약 1/16 수준임. 완전 로컬 실행이라 데이터가 외부로 나가지 않음.
주의할 점
참고
> 진짜 pass@1이 아님. best-of-3 후보 생성 + Lens 선택 + 실패 시 반복 수리까지 포함된 pass@1-v(k=3)이라는 자체 메트릭임. 비교 대상들은 전부 single-shot pass@1.
- ATLAS는 599개 태스크, 비교 대상(Artificial Analysis)은 315개 태스크로 태스크셋 자체가 다름. 통제된 비교가 아니라는 거임
- GPU 소비전력 약 165W 기준 599개 태스크에 약 1시간 55분 소요. 레이턴시는 API 대비 훨씬 느림
- GPQA Diamond 47.0%, SciCode 14.7%로 코딩 외 벤치마크는 아직 최적화 안 됨
V3.1 로드맵
- 모델을 Qwen3.5-9B(DeltaNet 선형 어텐션)로 교체 예정. 네이티브 MTP로 처리량 3~4배 향상 기대
- Geometric Lens C(x) 재학습, G(x) 메트릭 텐서 재설계 또는 제거
- 태스크 병렬화 추가
- 목표: LCB 80~90% pass@1-v(k=3)
댓글
댓글
댓글을 불러오는 중...