3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개

ai-ml 2026-06-23 약 6분

 tags

#llm #reasoning #sft #rl #distillation

vote

북마크

VibeThinker-3B는 30억 파라미터짜리 작은 dense 모델로도 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 실험한 기술 보고서야. 커리큘럼 기반 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기 증류를 조합해 AIME26 94.3점, LiveCodeBench v6 Pass@1 80.2 같은 꽤 센 숫자를 냈다고 주장함.

1
VibeThinker-3B는 3B 파라미터 규모의 compact dense model임
2
AIME26에서 94.3점, claim-level test-time scaling 적용 시 97.1점을 기록했다고 보고함
3
LiveCodeBench v6에서는 Pass@1 80.2를 기록함
4
최근 미공개 LeetCode 대회 문제에서 96.1% acceptance rate를 보였다고 주장함
5
작은 모델도 검증 가능한 추론 능력은 압축 가능하다는 Parametric Compression-Coverage Hypothesis를 제안함

VibeThinker-3B는 “작은 모델로 검증 가능한 추론을 어디까지 할 수 있나”를 정면으로 파는 논문임
- 모델 크기는 3B, 즉 30억 파라미터 dense model
- 논문은 2026년 6월 15일 arXiv에 제출됨
- 목표는 범용 지식 모델이 아니라, 정답 검증이 가능한 추론 태스크에서 작은 모델의 한계를 밀어보는 것임
후학습 파이프라인은 세 덩어리로 설명됨
- 커리큘럼 기반 지도 미세조정(SFT)으로 난이도와 도메인을 조절해 학습시킴
- 다중 도메인 강화학습으로 수학·코딩 같은 검증 가능한 문제 풀이를 강화함
- 오프라인 자기 증류(self-distillation)로 좋은 풀이 신호를 다시 압축해 넣음
숫자가 꽤 공격적임
- AIME26 점수는 94.3
- claim-level test-time scaling을 붙이면 AIME26이 97.1까지 올라간다고 보고함
- LiveCodeBench v6에서는 Pass@1 80.2
- 최근 미공개 LeetCode 대회 문제에서는 96.1% acceptance rate를 보였다고 함

❗중요

> 이 논문의 재미는 “3B가 모든 면에서 대형 모델을 이겼다”가 아니라, 수학·코딩처럼 답을 검증할 수 있는 영역에서는 작은 모델도 후학습으로 엄청 멀리 갈 수 있다는 주장임.

논문은 이 성능이 1티어 추론 시스템 밴드에 들어간다고 주장함
- 비교 대상으로 DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 훨씬 큰 플래그십 모델을 언급함
- “orders of magnitude larger”, 즉 파라미터 규모가 훨씬 큰 모델들과 맞먹거나 일부 넘는다는 표현을 씀
- 다만 초록 기준이라 세부 벤치마크 세팅과 재현성은 논문 본문을 봐야 함
지시 따르기 능력이 무너지지 않았다는 주장도 붙어 있음
- IFEval 점수는 93.4
- 극단적으로 추론만 강화하면 지시 준수나 형식 제어가 깨질 수 있는데, 그 손상이 크지 않았다는 의미로 제시됨
- 작은 모델을 실서비스에 쓰려면 이 부분이 꽤 중요함
저자들은 Parametric Compression-Coverage Hypothesis라는 관점을 제안함
- 검증 가능한 추론은 작은 “reasoning core” 안에 압축될 수 있다는 주장임
- 반대로 오픈 도메인 지식, 일반 상식, 롱테일 시나리오는 넓은 파라미터 커버리지가 필요하다고 봄
- 쉽게 말하면 “수학·코딩 추론”과 “세상 모든 걸 아는 능력”은 모델 크기에 대한 요구가 다를 수 있다는 얘기임
개발자 입장에서 바로 눈여겨볼 포인트는 모델 크기 대비 배포 가능성임
- 3B 모델이면 대형 폐쇄형 모델보다 온프레미스나 엣지 쪽 선택지가 훨씬 넓어짐
- 특히 코딩 문제, 정형 추론, 자동 채점 가능한 워크플로우에서는 작은 모델 튜닝 전략이 실용적일 수 있음
- 다만 실제 업무 코딩, 긴 컨텍스트 이해, 라이브러리 지식, 애매한 요구사항 처리까지 잘한다는 뜻은 아직 아님

기술 맥락

이 논문의 핵심 선택은 모델을 무작정 키우는 대신 “검증 가능한 추론”에 맞춰 후학습을 빡세게 거는 거예요. 수학 문제나 코딩 테스트는 답이 맞는지 자동으로 확인할 수 있으니까, 학습 신호가 비교적 선명하거든요.
SFT를 커리큘럼으로 구성한 이유는 작은 모델이 처음부터 어려운 문제를 잘 풀기 어렵기 때문이에요. 쉬운 패턴에서 시작해 복잡한 풀이로 넘어가면, 제한된 파라미터 안에서도 풀이 습관을 더 안정적으로 만들 수 있어요.
강화학습과 자기 증류가 붙는 이유는 정답만 외우는 모델이 아니라 풀이 과정을 개선하는 모델을 만들기 위해서예요. 특히 코딩과 수학은 결과 검증이 가능해서, 좋은 풀이를 골라 다시 학습시키는 루프가 성능에 직접 영향을 줘요.
논문이 던지는 더 큰 질문은 “모든 능력이 같은 방식으로 파라미터를 요구하나”예요. 저자들은 추론 능력은 압축될 수 있지만, 세상 지식과 롱테일 대응은 넓은 파라미터 커버리지가 필요하다고 봐요. 그래서 작은 모델은 대형 모델의 대체재라기보다 특정 영역의 보완재에 가까워요.

작은 모델이 대형 모델을 ‘전반적으로’ 이겼다는 식으로 읽으면 과장일 수 있음. 다만 수학·코딩처럼 정답 검증이 가능한 영역에서는 파라미터 수보다 후학습 파이프라인과 테스트타임 스케일링이 더 큰 변수라는 흐름은 점점 뚜렷해지는 중임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-06-23

바이두, 긴 문서 한 번에 파싱하는 ‘Unlimited-OCR’ 공개

바이두가 Deepseek-OCR 계열 아이디어를 확장한 문서 파싱 모델 Unlimited-OCR을 공개했어. 단일 이미지뿐 아니라 여러 페이지 이미지와 PDF를 32768 토큰 컨텍스트로 처리하고, Hugging Face Transformers와 SGLang 기반 OpenAI 호환 API 예제까지 제공하는 실전형 레포에 가까움.

ai-ml 2026-06-22

GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법

Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.

ai-ml 2026-06-23

삼성SDS, 공공 AI 박람회서 패브릭스·브리티웍스·AI 데이터센터 전면 배치

삼성SDS가 2026 공공 AI 박람회에서 공공 행정용 AI 에이전트, 모바일 협업 솔루션, AI 클라우드 인프라를 함께 선보였다. 국민 민원 요약·분류, 조달법령 해석, 정부24 AI 검색 같은 사례를 통해 공공 부문 AI 전환 시장을 정조준했다.

ai-ml 2026-06-23

카페24는 120개 모델 라우터, 델은 랙당 GPU 144개 서버…국내 AI 인프라 뉴스 몰아보기

카페24가 120여 개 AI 모델을 단일 API로 묶는 LLM 라우터를 내놨고, 델은 엔비디아 베라 루빈 NVL4 기반 슈퍼컴 서버 XE8812를 공개했다. 오픈AI의 기업용 AI는 삼성전자와 서울대 도입 사례로 국내 확산 흐름이 뚜렷해졌고, 신세계I&C는 게임 IP 콘솔 패키지 출시를 예고했다.

ai-ml 2026-06-23

브릭섬, 1MW급 NPU 추론 클라우드 ‘네오클라우드’ 하반기 오픈 추진

브릭섬이 NPU 기반 LLM 추론 전용 클라우드 ‘네오클라우드’를 올해 하반기 공식 오픈하겠다고 밝혔다. 1MW 규모로 시작해 6MW, 20MW까지 키우고, 토큰 API와 베어메탈 임대 두 가지 방식으로 제공한다.

3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사