---
title: "텐센트 WeDLM: 디퓨전 LM인데 KV 캐시 호환되고 vLLM보다 최대 10배 빠름"
published: 2026-01-01T22:51:29.000Z
canonical: https://jeff.news/article/315
---
# 텐센트 WeDLM: 디퓨전 LM인데 KV 캐시 호환되고 vLLM보다 최대 10배 빠름

텐센트가 표준 인과 어텐션 하에서 병렬 마스크 복원을 수행하는 디퓨전 언어 모델 WeDLM을 공개함. 기존 AR 인프라(FlashAttention, PagedAttention)를 그대로 사용하면서 수학 추론에서 vLLM 대비 3~6배 속도 향상.

## 텐센트가 Diffusion LM의 고질적 문제를 풀었다고 주장함

- 기존 디퓨전 언어 모델(Diffusion LM)은 대부분 **양방향 어텐션(bidirectional attention)**을 써서, KV 캐시 호환이 안 되고 병렬 예측이 실제 속도 향상으로 이어지지 않는 문제가 있었음. vLLM 같은 최적화된 AR 엔진 대비 오히려 느린 경우도 많았음
- 텐센트가 내놓은 **WeDLM**은 **표준 인과 어텐션(causal attention)** 하에서 병렬 마스크 복원을 수행하는 방식으로 이 문제를 해결함

## 핵심 기술: Topological Reordering

- WeDLM의 핵심은 **Topological Reordering**이라는 기법임. 인과 어텐션 구조를 유지하면서 병렬로 마스크를 복원하고, **Streaming Parallel Decoding**으로 연속적인 프리픽스 커밋을 수행함
- 이 덕분에 FlashAttention, PagedAttention, CUDA Graphs 같은 기존 최적화 스택이 그대로 동작함. 기존 디퓨전 LM들이 이걸 못 쓴 게 가장 큰 병목이었는데, 그걸 정면으로 해결한 거임
- 사전학습된 AR 모델(Qwen2.5, Qwen3)에서 바로 초기화할 수 있어서, 처음부터 학습할 필요 없음

## 벤치마크: vLLM 대비 최대 10배 빠름

- 구조화된 출력이 나오는 태스크에서 속도 향상이 가장 큼:
  - **수학 추론(GSM8K, MATH)**: vLLM 대비 3~6배
  - **코드 생성**: 2~3배
  - **순차/카운팅 태스크**: 최대 **10배** (출력이 결정적일수록 병렬 수용률이 높아짐)
  - **오픈엔디드 QA**: 1.5~2배 (엔트로피가 높으면 병렬 수용이 제한됨)

> [!IMPORTANT]
> WeDLM-8B-Instruct 기준, Qwen3-8B-Instruct 대비 평균 벤치마크 점수가 75.12 → 77.53으로 향상됨. 속도만 빨라진 게 아니라 품질도 좋아진 거임

## 모델 라인업

- **WeDLM-7B**: Qwen2.5-7B 기반, 32K 컨텍스트
- **WeDLM-8B**: Qwen3-8B 기반, 32K 컨텍스트
- Base / Instruct 모델 모두 제공하고, HuggingFace에서 다운로드 가능
- Docker 이미지도 있어서 `docker pull aiweiliu/wedlm:v3`으로 바로 써볼 수 있음
- 파인튜닝 프레임워크도 공개했고, dense/MagiAttention 백엔드 둘 다 지원

## 실용적 관점

- chatllm.cpp에서도 WeDLM 모델을 지원하기 시작함
- AR 베이스라인 대비 평가 스크립트도 제공해서 직접 벤치마크 재현 가능
- 결국 핵심은 "디퓨전 LM인데 기존 AR 인프라를 그대로 쓸 수 있다"는 점인데, 이게 실제 프로덕션 배포에서 엄청난 차이를 만듦

## 핵심 포인트

- Topological Reordering으로 causal attention 하에서 병렬 디퓨전 수행
- FlashAttention/PagedAttention/CUDA Graphs 네이티브 호환
- Qwen2.5/Qwen3에서 직접 초기화 가능
- 수학 추론 3~6배, 코드 생성 2~3배, 순차 태스크 최대 10배 속도 향상
- WeDLM-8B-Instruct가 Qwen3-8B-Instruct 대비 품질도 향상

## 인사이트

디퓨전 LM의 실용화 걸림돌이었던 KV 캐시 비호환을 정면 돌파한 점이 인상적. 프로덕션 배포 가능성이 처음으로 열린 디퓨전 LM.