---
title: "$500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템"
published: 2026-03-26T17:31:24.000Z
canonical: https://jeff.news/article/1332
---
# $500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템

ATLAS 시스템이 RTX 5060 Ti 단일 GPU에서 frozen Qwen3-14B로 LiveCodeBench 74.6%를 달성해 Claude 4.5 Sonnet(71.4%)을 넘었다고 주장. 다만 best-of-3 + repair 파이프라인이라 진정한 pass@1이 아니고, 태스크셋도 달라서 직접 비교에는 한계가 있음.

$500 GPU 하나로 Claude Sonnet 코딩 벤치마크 넘었다는 ATLAS 시스템

ATLAS(Adaptive Test-time Learning and Autonomous Specialization)라는 시스템이 RTX 5060 Ti 16GB 단일 GPU에서 frozen Qwen3-14B-Q4_K_M 모델로 LiveCodeBench pass@1-v(k=3) **74.6%**를 달성했다는 거임. V2에서 36~41%였던 걸 거의 두 배 끌어올린 셈.

## 핵심 파이프라인 구조

PlanSearch + BudgetForcing + Geometric Lens + PR-CoT repair 파이프라인으로 동작함:

- **Phase 1** (PlanSearch + BudgetForcing + DivSampling): 베이스라인 54.9%에서 67.3%로 +12.4pp 상승. 제약 조건 추출하고 다양한 플랜 생성하는 단계
- **Phase 2** (Geometric Lens 라우팅): +0.0pp. 학습 데이터가 60개밖에 안 돼서 사실상 기여 없음. V3.1에서 재학습 예정
- **Phase 3** (Self-verified PR-CoT repair): +7.3pp 추가 상승. 모델이 자체 테스트 케이스 생성해서 반복 수정하는 방식. 42개 실패 태스크 중 36개 복구(85.7%)

## 다른 모델과 비교

| 시스템 | LCB pass@1 | 태스크당 비용 |
|--------|-----------|-------------|
| DeepSeek V3.2 Reasoning | 86.2% | ~$0.002 |
| GPT-5 (high) | 84.6% | ~$0.043 |
| **ATLAS V3** | **74.6%** | **~$0.004** |
| Claude 4.5 Sonnet | 71.4% | ~$0.066 |
| Claude 4 Sonnet | 65.5% | ~$0.066 |

Claude 4.5 Sonnet(71.4%)보다 3.2pp 높고, 비용은 전기료 기준 태스크당 $0.004로 Claude API 대비 약 1/16 수준임. 완전 로컬 실행이라 데이터가 외부로 나가지 않음.

## 주의할 점

> [!NOTE]
> 진짜 pass@1이 아님. best-of-3 후보 생성 + Lens 선택 + 실패 시 반복 수리까지 포함된 pass@1-v(k=3)이라는 자체 메트릭임. 비교 대상들은 전부 single-shot pass@1.

- ATLAS는 599개 태스크, 비교 대상(Artificial Analysis)은 315개 태스크로 **태스크셋 자체가 다름**. 통제된 비교가 아니라는 거임
- GPU 소비전력 약 165W 기준 599개 태스크에 약 1시간 55분 소요. 레이턴시는 API 대비 훨씬 느림
- GPQA Diamond 47.0%, SciCode 14.7%로 코딩 외 벤치마크는 아직 최적화 안 됨

## V3.1 로드맵

- 모델을 Qwen3.5-9B(DeltaNet 선형 어텐션)로 교체 예정. 네이티브 MTP로 처리량 3~4배 향상 기대
- Geometric Lens C(x) 재학습, G(x) 메트릭 텐서 재설계 또는 제거
- 태스크 병렬화 추가
- 목표: LCB 80~90% pass@1-v(k=3)

## 핵심 포인트

- RTX 5060 Ti 16GB에서 Qwen3-14B-Q4_K_M으로 LiveCodeBench pass@1-v(k=3) 74.6% 달성 (V2 대비 약 2배)
- PlanSearch+BudgetForcing이 +12.4pp, Self-verified PR-CoT repair가 +7.3pp 기여
- 태스크당 전기료 $0.004로 Claude API($0.066) 대비 1/16 비용, 완전 로컬 실행
- 진짜 pass@1이 아닌 best-of-3 + repair 메트릭이고, 비교 대상과 태스크셋이 다름
- V3.1에서 Qwen3.5-9B 전환, 태스크 병렬화, 목표 80-90% 예정

## 인사이트

로컬 추론 인프라가 프론티어 API 모델과 경쟁 가능한 수준까지 올라왔지만, 벤치마크 방법론 차이를 감안하면 아직 정확한 비교는 어려움. 비용 효율성과 데이터 프라이버시 측면에서는 확실한 장점.