---
title: "디퓨전 언어 모델이 드디어 AR 모델 품질 따라잡음 — I-DLM 논문 공개"
published: 2026-04-14T07:57:33.000Z
canonical: https://jeff.news/article/1743
---
# 디퓨전 언어 모델이 드디어 AR 모델 품질 따라잡음 — I-DLM 논문 공개

디퓨전 언어 모델(DLM)이 오토리그레시브(AR) 모델 대비 품질이 뒤처지는 근본 원인을 '내성적 일관성(introspective consistency)' 부재로 진단하고, 이를 해결한 I-DLM을 발표했다. 8B 파라미터로 16B DLM을 능가하며 2.9~4.1배 처리량을 달성했다.

- 디퓨전 언어 모델(DLM)이 드디어 같은 규모의 오토리그레시브(AR) 모델 품질을 따라잡음 — I-DLM이 그 주인공
  - DLM의 매력은 토큰을 병렬 생성할 수 있다는 건데, 실제로는 AR 모델 대비 품질이 항상 뒤처졌음
  - 이 논문의 핵심 주장: 그 갭의 원인은 "내성적 일관성(introspective consistency)"의 부재

## 왜 DLM이 AR에 뒤처졌나

- AR 모델은 생성과 검증이 하나의 포워드 패스에서 동시에 일어남 — 자기가 뱉은 걸 자기가 동의하는 구조
  - DLM은 디노이즈는 배우는데 자기 출력을 검증하는 능력(introspection)은 학습하지 않음
  - 이 불일치가 품질 차이의 근본 원인이라는 게 논문의 진단

- I-DLM은 내성적 스트라이드 디코딩(Introspective Strided Decoding, ISD)으로 이 문제를 해결
  - 같은 포워드 패스에서 이전에 생성한 토큰을 검증하면서 동시에 새 토큰도 생성
  - 게이티드 LoRA를 쓰면 비트 단위로 완전 무손실(bit-for-bit lossless) 가속까지 가능

## 벤치마크가 말해주는 것

- I-DLM-8B가 LLaDA-2.1-mini(16B)를 파라미터 절반으로 압도
  - AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 차이
  - 높은 동시성(concurrency) 환경에서 2.9~4.1배 처리량(throughput) 달성

> [!IMPORTANT]
> 15개 벤치마크 전체에서 기존 DLM을 모두 능가하면서, 같은 규모 AR 모델 품질에 최초로 도달한 DLM이라는 점이 핵심 성과.

- 메모리 바운드 디코드 환경에서 TPF(Tokens Per Forward pass)가 벽시계 속도 향상과 거의 1:1로 대응
  - TPF 2.5면 대략 AR 대비 2.5배 빠른 디코딩
  - 수용률(acceptance rate)이 기하급수적으로 복합됨 — 포지션 k의 확률이 p^(k-1)

---

## 기술 맥락

- AR 모델에서는 "다음 토큰 예측"이 곧 이전 토큰에 대한 암묵적 검증 역할을 해요. 내가 생성한 토큰 위에서 다음 토큰을 예측하니까, 틀린 토큰이 있으면 자연스럽게 보정이 되거든요. DLM은 이 과정이 빠져 있었던 거예요.
- ISD가 영리한 건 "검증"과 "생성"을 별도 패스로 분리하지 않고 하나의 포워드 패스에 합쳤다는 점이에요. 스트라이드(stride) 단위로 이전 구간을 다시 보면서 새 구간도 동시에 디노이즈하는 거라, 추가 연산 오버헤드가 최소화돼요.
- 게이티드 LoRA는 ISD 모드와 일반 디퓨전 모드 사이를 전환하는 스위치 역할을 해요. LoRA 가중치를 게이트로 조절해서, 무손실 가속이 필요할 때만 ISD를 활성화하는 구조거든요. 기존 모델 가중치를 건드리지 않아도 된다는 게 실용적인 포인트예요.
- 8B 파라미터로 16B 모델을 이긴 건 단순히 "작은 모델이 더 잘한다"가 아니라, 아키텍처 차원에서 AR의 핵심 장점(자기 일관성)을 DLM에 이식한 결과예요. 파라미터 수보다 학습 목표(training objective)의 설계가 더 중요할 수 있다는 걸 보여주는 사례이기도 해요.

## 핵심 포인트

- DLM의 품질 갭 원인을 '내성적 일관성 부재'로 진단
- 내성적 스트라이드 디코딩(ISD)으로 검증과 생성을 단일 포워드 패스에 통합
- I-DLM-8B가 LLaDA-2.1-mini(16B)를 AIME-24에서 +26, LiveCodeBench-v6에서 +15 능가
- 높은 동시성에서 2.9~4.1배 throughput, 게이티드 LoRA로 무손실 가속

## 인사이트

DLM의 병렬 생성 장점을 품질 손실 없이 실현한 첫 사례. AR 모델의 핵심 장점인 자기 일관성을 DLM에 이식했다는 점에서, 추론 효율성 경쟁의 새로운 방향을 제시한다.