본문으로 건너뛰기
피드

디퓨전 언어 모델이 드디어 AR 모델 품질 따라잡음 — I-DLM 논문 공개

ai-ml 약 5분
vote
0
댓글
북마크

디퓨전 언어 모델(DLM)이 오토리그레시브(AR) 모델 대비 품질이 뒤처지는 근본 원인을 '내성적 일관성(introspective consistency)' 부재로 진단하고, 이를 해결한 I-DLM을 발표했다. 8B 파라미터로 16B DLM을 능가하며 2.9~4.1배 처리량을 달성했다.

  • 1

    DLM의 품질 갭 원인을 '내성적 일관성 부재'로 진단

  • 2

    내성적 스트라이드 디코딩(ISD)으로 검증과 생성을 단일 포워드 패스에 통합

  • 3

    I-DLM-8B가 LLaDA-2.1-mini(16B)를 AIME-24에서 +26, LiveCodeBench-v6에서 +15 능가

  • 4

    높은 동시성에서 2.9~4.1배 throughput, 게이티드 LoRA로 무손실 가속

  • 디퓨전 언어 모델(DLM)이 드디어 같은 규모의 오토리그레시브(AR) 모델 품질을 따라잡음 — I-DLM이 그 주인공
    • DLM의 매력은 토큰을 병렬 생성할 수 있다는 건데, 실제로는 AR 모델 대비 품질이 항상 뒤처졌음
    • 이 논문의 핵심 주장: 그 갭의 원인은 "내성적 일관성(introspective consistency)"의 부재

왜 DLM이 AR에 뒤처졌나

  • AR 모델은 생성과 검증이 하나의 포워드 패스에서 동시에 일어남 — 자기가 뱉은 걸 자기가 동의하는 구조

    • DLM은 디노이즈는 배우는데 자기 출력을 검증하는 능력(introspection)은 학습하지 않음
    • 이 불일치가 품질 차이의 근본 원인이라는 게 논문의 진단
  • I-DLM은 내성적 스트라이드 디코딩(Introspective Strided Decoding, ISD)으로 이 문제를 해결

    • 같은 포워드 패스에서 이전에 생성한 토큰을 검증하면서 동시에 새 토큰도 생성
    • 게이티드 LoRA를 쓰면 비트 단위로 완전 무손실(bit-for-bit lossless) 가속까지 가능

벤치마크가 말해주는 것

  • I-DLM-8B가 LLaDA-2.1-mini(16B)를 파라미터 절반으로 압도
    • AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 차이
    • 높은 동시성(concurrency) 환경에서 2.9~4.1배 처리량(throughput) 달성

중요

> 15개 벤치마크 전체에서 기존 DLM을 모두 능가하면서, 같은 규모 AR 모델 품질에 최초로 도달한 DLM이라는 점이 핵심 성과.

  • 메모리 바운드 디코드 환경에서 TPF(Tokens Per Forward pass)가 벽시계 속도 향상과 거의 1:1로 대응
    • TPF 2.5면 대략 AR 대비 2.5배 빠른 디코딩
    • 수용률(acceptance rate)이 기하급수적으로 복합됨 — 포지션 k의 확률이 p^(k-1)

기술 맥락

  • AR 모델에서는 "다음 토큰 예측"이 곧 이전 토큰에 대한 암묵적 검증 역할을 해요. 내가 생성한 토큰 위에서 다음 토큰을 예측하니까, 틀린 토큰이 있으면 자연스럽게 보정이 되거든요. DLM은 이 과정이 빠져 있었던 거예요.
  • ISD가 영리한 건 "검증"과 "생성"을 별도 패스로 분리하지 않고 하나의 포워드 패스에 합쳤다는 점이에요. 스트라이드(stride) 단위로 이전 구간을 다시 보면서 새 구간도 동시에 디노이즈하는 거라, 추가 연산 오버헤드가 최소화돼요.
  • 게이티드 LoRA는 ISD 모드와 일반 디퓨전 모드 사이를 전환하는 스위치 역할을 해요. LoRA 가중치를 게이트로 조절해서, 무손실 가속이 필요할 때만 ISD를 활성화하는 구조거든요. 기존 모델 가중치를 건드리지 않아도 된다는 게 실용적인 포인트예요.
  • 8B 파라미터로 16B 모델을 이긴 건 단순히 "작은 모델이 더 잘한다"가 아니라, 아키텍처 차원에서 AR의 핵심 장점(자기 일관성)을 DLM에 이식한 결과예요. 파라미터 수보다 학습 목표(training objective)의 설계가 더 중요할 수 있다는 걸 보여주는 사례이기도 해요.

DLM의 병렬 생성 장점을 품질 손실 없이 실현한 첫 사례. AR 모델의 핵심 장점인 자기 일관성을 DLM에 이식했다는 점에서, 추론 효율성 경쟁의 새로운 방향을 제시한다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

대학생들은 이미 챗지피티와 제미나이를 쪼개 쓰는 ‘AI 네이티브’가 됐다

이화여대 학생 설문과 인터뷰를 보면 생성형 AI는 과제 보조 도구를 넘어 학습, 글쓰기, 자료조사, 감정 상담까지 들어온 일상 인프라가 됐다. 학생들은 챗지피티, 제미나이, 클로드, 퍼플렉시티를 용도별로 나눠 쓰면서도 환각과 오류 때문에 교차검증이 필요하다고 보고 있다. 대학의 윤리 지침은 존재하지만 학생 체감은 낮고, 이제는 금지보다 활용 교육과 평가 방식 재설계가 핵심 이슈로 떠올랐다.

ai-ml

AI 에이전트 시대, 진짜 해자는 코딩 실력이 아니라 도메인 지식이다

이 글은 에이전트형 AI가 소프트웨어 개발의 병목을 “만들 수 있나”에서 “맞는지 판단할 수 있나”로 옮겼다고 주장한다. 일반ist 엔지니어의 코드 생산 능력보다, 특정 도메인의 정답을 알아보고 검증할 수 있는 사람이 더 큰 가치를 갖게 된다는 얘기다.

ai-ml

OpenRouter, 시리즈 B에서 1억1300만 달러 조달…멀티 모델 AI 인프라 판 커진다

OpenRouter가 알파벳 성장펀드 CapitalG 주도로 1억1300만 달러 규모 시리즈 B 투자를 받았다. 최근 6개월간 주간 처리량이 5조 토큰에서 25조 토큰으로 5배 늘었고, 올해 1천조 토큰 이상을 처리하는 속도로 성장 중이라고 밝혔다.

ai-ml

테슬라 FSD, 중국서 첫 집단 사기 소송 심리 시작

중국 베이징 법원이 테슬라의 풀 셀프 드라이빙 판매 약속을 둘러싼 소비자 사기 소송 첫 심리를 열었다. 원고 10명은 2019~2021년에 약 5만6천 위안을 내고 FSD를 샀지만, 실제 중국 출시 기능은 구형 하드웨어 차량을 배제했고 완전 자율주행도 제공하지 못했다고 주장한다. 중국 소비자보호법상 사기로 인정되면 환불뿐 아니라 3배 배상까지 이어질 수 있어 파장이 크다.

ai-ml

안도르 제작자, 1,500쪽 대본 공개 접은 이유는 “AI 학습 데이터 되기 싫어서”

스타워즈 드라마 안도르의 쇼러너 토니 길로이가 준비해둔 1,500쪽짜리 대본·콘셉트 아트 공개 계획을 접었다. 이유는 단순하다. 공개하는 순간 AI 모델 학습 데이터로 빨려 들어갈 수 있다는 우려 때문이다. 헐리우드 창작자와 스튜디오, AI 기업 사이의 저작권·학습 데이터 갈등이 다시 선명하게 드러난 사례다.