---
title: "자기 출력만으로 코드 생성 성능 13%p 향상 — 황당할 정도로 단순한 Self-Distillation 기법"
published: 2026-04-04T10:26:21.000Z
canonical: https://jeff.news/article/1524
---
# 자기 출력만으로 코드 생성 성능 13%p 향상 — 황당할 정도로 단순한 Self-Distillation 기법

LLM이 외부 데이터 없이 자기 자신의 출력만으로 코드 생성 성능을 크게 끌어올릴 수 있다는 연구 결과가 나왔다. Qwen3-30B 기준 LiveCodeBench v6에서 pass@1이 42.4%에서 55.3%로 향상되었으며, 4B~30B 다양한 스케일과 모델 패밀리에서 재현된다.

- LLM이 자기 자신의 출력만으로 코드 생성 성능을 끌어올릴 수 있다는 논문이 나옴 — 이름은 **Simple Self-Distillation(SSD)**
  - 방법이 황당할 정도로 단순함: 특정 temperature와 truncation 설정으로 솔루션을 샘플링한 다음, 표준 SFT(Supervised Fine-Tuning)를 돌리는 게 전부

> [!IMPORTANT]
> Qwen3-30B-Instruct 기준 LiveCodeBench v6에서 **pass@1이 42.4% → 55.3%**로 점프. 약 13%p 향상인데, 외부 데이터 없이 자기 출력만으로 달성한 수치임.

- 효과가 특히 어려운 문제에서 집중적으로 나타남
  - 쉬운 문제는 이미 잘 풀고 있으니 당연한 결과이긴 한데, 난이도 높은 문제에서의 개선폭이 크다는 건 실용적으로 의미 있음
  - Qwen과 Llama 모델 모두에서, 4B/8B/30B 다양한 스케일에서 재현됨
  - instruct 모델뿐 아니라 thinking 모델 변형에서도 동작함

- 저자들이 제시하는 메커니즘은 **"precision-exploration conflict"의 해소**
  - LLM 디코딩에서 정밀도(precision)가 중요한 토큰 분포에서는 문제가 되는 분포를 억제하고
  - 탐색(exploration)이 유익한 곳에서는 다양성을 유지함
  - 즉, self-distillation이 모델의 출력 분포를 "정밀해야 할 곳은 정밀하게, 다양해야 할 곳은 다양하게" 재조정하는 효과를 낸다는 것

- 실무적 시사점이 꽤 큼
  - 고품질 외부 데이터셋 없이도 모델 성능을 올릴 수 있다는 건, 데이터 수급이 어려운 도메인에서 특히 매력적
  - 방법론 자체가 "embarrassingly simple"이라 구현 장벽도 낮음

---

## 기술 맥락

- Self-distillation은 원래 teacher-student 증류에서 teacher와 student가 같은 모델인 특수 케이스예요. 보통은 더 큰 모델(teacher)이 작은 모델(student)을 가르치는데, 여기선 자기 자신이 자기를 가르치는 거죠
- 여기서 temperature와 truncation 설정이 핵심이에요. temperature를 높이면 다양한 솔루션이 나오고, truncation으로 너무 이상한 출력은 잘라내서 "괜찮은 다양성"만 남기는 전략이거든요
- "precision-exploration conflict"라는 개념이 재밌는데, 코드 생성에서 변수명이나 API 호출 같은 건 정확해야 하지만 알고리즘 전략 선택 같은 건 다양한 시도가 유리하잖아요. SSD가 이 두 가지를 자동으로 분리해서 최적화한다는 주장이에요
- LiveCodeBench v6는 2024년 이후 새로 출제된 코딩 문제로 구성된 벤치마크라, 학습 데이터에 이미 포함됐을 가능성이 낮아요. 그래서 13%p 향상이 진짜 실력 향상으로 볼 수 있는 거예요

## 핵심 포인트

- Simple Self-Distillation(SSD): 자기 출력을 샘플링한 뒤 표준 SFT로 학습하는 단순한 방법
- Qwen3-30B-Instruct 기준 LiveCodeBench v6 pass@1 42.4% → 55.3%
- Qwen, Llama 모델 4B/8B/30B 스케일에서 모두 재현됨
- precision-exploration conflict 해소가 핵심 메커니즘으로 제시됨

## 인사이트

고품질 학습 데이터 확보가 점점 어려워지는 상황에서, 모델 자체 출력으로 성능을 올릴 수 있다는 건 실용적으로 큰 의미가 있음. 방법론이 극도로 단순해서 누구나 시도해볼 수 있다는 점도 매력적.
