---
title: "3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개"
published: 2026-06-23T02:01:25.000Z
canonical: https://jeff.news/article/4270
---
# 3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개

VibeThinker-3B는 30억 파라미터짜리 작은 dense 모델로도 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 실험한 기술 보고서야. 커리큘럼 기반 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기 증류를 조합해 AIME26 94.3점, LiveCodeBench v6 Pass@1 80.2 같은 꽤 센 숫자를 냈다고 주장함.

- `VibeThinker-3B`는 “작은 모델로 검증 가능한 추론을 어디까지 할 수 있나”를 정면으로 파는 논문임
  - 모델 크기는 3B, 즉 30억 파라미터 dense model
  - 논문은 2026년 6월 15일 arXiv에 제출됨
  - 목표는 범용 지식 모델이 아니라, 정답 검증이 가능한 추론 태스크에서 작은 모델의 한계를 밀어보는 것임

- 후학습 파이프라인은 세 덩어리로 설명됨
  - 커리큘럼 기반 지도 미세조정(SFT)으로 난이도와 도메인을 조절해 학습시킴
  - 다중 도메인 강화학습으로 수학·코딩 같은 검증 가능한 문제 풀이를 강화함
  - 오프라인 자기 증류(self-distillation)로 좋은 풀이 신호를 다시 압축해 넣음

- 숫자가 꽤 공격적임
  - AIME26 점수는 94.3
  - claim-level test-time scaling을 붙이면 AIME26이 97.1까지 올라간다고 보고함
  - LiveCodeBench v6에서는 Pass@1 80.2
  - 최근 미공개 LeetCode 대회 문제에서는 96.1% acceptance rate를 보였다고 함

> [!IMPORTANT]
> 이 논문의 재미는 “3B가 모든 면에서 대형 모델을 이겼다”가 아니라, 수학·코딩처럼 답을 검증할 수 있는 영역에서는 작은 모델도 후학습으로 엄청 멀리 갈 수 있다는 주장임.

- 논문은 이 성능이 1티어 추론 시스템 밴드에 들어간다고 주장함
  - 비교 대상으로 DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 훨씬 큰 플래그십 모델을 언급함
  - “orders of magnitude larger”, 즉 파라미터 규모가 훨씬 큰 모델들과 맞먹거나 일부 넘는다는 표현을 씀
  - 다만 초록 기준이라 세부 벤치마크 세팅과 재현성은 논문 본문을 봐야 함

- 지시 따르기 능력이 무너지지 않았다는 주장도 붙어 있음
  - IFEval 점수는 93.4
  - 극단적으로 추론만 강화하면 지시 준수나 형식 제어가 깨질 수 있는데, 그 손상이 크지 않았다는 의미로 제시됨
  - 작은 모델을 실서비스에 쓰려면 이 부분이 꽤 중요함

- 저자들은 `Parametric Compression-Coverage Hypothesis`라는 관점을 제안함
  - 검증 가능한 추론은 작은 “reasoning core” 안에 압축될 수 있다는 주장임
  - 반대로 오픈 도메인 지식, 일반 상식, 롱테일 시나리오는 넓은 파라미터 커버리지가 필요하다고 봄
  - 쉽게 말하면 “수학·코딩 추론”과 “세상 모든 걸 아는 능력”은 모델 크기에 대한 요구가 다를 수 있다는 얘기임

- 개발자 입장에서 바로 눈여겨볼 포인트는 모델 크기 대비 배포 가능성임
  - 3B 모델이면 대형 폐쇄형 모델보다 온프레미스나 엣지 쪽 선택지가 훨씬 넓어짐
  - 특히 코딩 문제, 정형 추론, 자동 채점 가능한 워크플로우에서는 작은 모델 튜닝 전략이 실용적일 수 있음
  - 다만 실제 업무 코딩, 긴 컨텍스트 이해, 라이브러리 지식, 애매한 요구사항 처리까지 잘한다는 뜻은 아직 아님

---
## 기술 맥락

- 이 논문의 핵심 선택은 모델을 무작정 키우는 대신 “검증 가능한 추론”에 맞춰 후학습을 빡세게 거는 거예요. 수학 문제나 코딩 테스트는 답이 맞는지 자동으로 확인할 수 있으니까, 학습 신호가 비교적 선명하거든요.

- SFT를 커리큘럼으로 구성한 이유는 작은 모델이 처음부터 어려운 문제를 잘 풀기 어렵기 때문이에요. 쉬운 패턴에서 시작해 복잡한 풀이로 넘어가면, 제한된 파라미터 안에서도 풀이 습관을 더 안정적으로 만들 수 있어요.

- 강화학습과 자기 증류가 붙는 이유는 정답만 외우는 모델이 아니라 풀이 과정을 개선하는 모델을 만들기 위해서예요. 특히 코딩과 수학은 결과 검증이 가능해서, 좋은 풀이를 골라 다시 학습시키는 루프가 성능에 직접 영향을 줘요.

- 논문이 던지는 더 큰 질문은 “모든 능력이 같은 방식으로 파라미터를 요구하나”예요. 저자들은 추론 능력은 압축될 수 있지만, 세상 지식과 롱테일 대응은 넓은 파라미터 커버리지가 필요하다고 봐요. 그래서 작은 모델은 대형 모델의 대체재라기보다 특정 영역의 보완재에 가까워요.

## 핵심 포인트

- VibeThinker-3B는 3B 파라미터 규모의 compact dense model임
- AIME26에서 94.3점, claim-level test-time scaling 적용 시 97.1점을 기록했다고 보고함
- LiveCodeBench v6에서는 Pass@1 80.2를 기록함
- 최근 미공개 LeetCode 대회 문제에서 96.1% acceptance rate를 보였다고 주장함
- 작은 모델도 검증 가능한 추론 능력은 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 제안함

## 인사이트

작은 모델이 대형 모델을 ‘전반적으로’ 이겼다는 식으로 읽으면 과장일 수 있음. 다만 수학·코딩처럼 정답 검증이 가능한 영역에서는 파라미터 수보다 후학습 파이프라인과 테스트타임 스케일링이 더 큰 변수라는 흐름은 점점 뚜렷해지는 중임.