본문으로 건너뛰기
피드

텐센트 WeDLM: 디퓨전 LM인데 KV 캐시 호환되고 vLLM보다 최대 10배 빠름

ai-ml 약 4분
vote
0
댓글
북마크

텐센트가 표준 인과 어텐션 하에서 병렬 마스크 복원을 수행하는 디퓨전 언어 모델 WeDLM을 공개함. 기존 AR 인프라(FlashAttention, PagedAttention)를 그대로 사용하면서 수학 추론에서 vLLM 대비 3~6배 속도 향상.

  • 1

    Topological Reordering으로 causal attention 하에서 병렬 디퓨전 수행

  • 2

    FlashAttention/PagedAttention/CUDA Graphs 네이티브 호환

  • 3

    Qwen2.5/Qwen3에서 직접 초기화 가능

  • 4

    수학 추론 3~6배, 코드 생성 2~3배, 순차 태스크 최대 10배 속도 향상

  • 5

    WeDLM-8B-Instruct가 Qwen3-8B-Instruct 대비 품질도 향상

텐센트가 Diffusion LM의 고질적 문제를 풀었다고 주장함

  • 기존 디퓨전 언어 모델(Diffusion LM)은 대부분 양방향 어텐션(bidirectional attention)을 써서, KV 캐시 호환이 안 되고 병렬 예측이 실제 속도 향상으로 이어지지 않는 문제가 있었음. vLLM 같은 최적화된 AR 엔진 대비 오히려 느린 경우도 많았음
  • 텐센트가 내놓은 WeDLM표준 인과 어텐션(causal attention) 하에서 병렬 마스크 복원을 수행하는 방식으로 이 문제를 해결함

핵심 기술: Topological Reordering

  • WeDLM의 핵심은 Topological Reordering이라는 기법임. 인과 어텐션 구조를 유지하면서 병렬로 마스크를 복원하고, Streaming Parallel Decoding으로 연속적인 프리픽스 커밋을 수행함
  • 이 덕분에 FlashAttention, PagedAttention, CUDA Graphs 같은 기존 최적화 스택이 그대로 동작함. 기존 디퓨전 LM들이 이걸 못 쓴 게 가장 큰 병목이었는데, 그걸 정면으로 해결한 거임
  • 사전학습된 AR 모델(Qwen2.5, Qwen3)에서 바로 초기화할 수 있어서, 처음부터 학습할 필요 없음

벤치마크: vLLM 대비 최대 10배 빠름

  • 구조화된 출력이 나오는 태스크에서 속도 향상이 가장 큼:
    • 수학 추론(GSM8K, MATH): vLLM 대비 3~6배
    • 코드 생성: 2~3배
    • 순차/카운팅 태스크: 최대 10배 (출력이 결정적일수록 병렬 수용률이 높아짐)
    • 오픈엔디드 QA: 1.5~2배 (엔트로피가 높으면 병렬 수용이 제한됨)

중요

> WeDLM-8B-Instruct 기준, Qwen3-8B-Instruct 대비 평균 벤치마크 점수가 75.12 → 77.53으로 향상됨. 속도만 빨라진 게 아니라 품질도 좋아진 거임

모델 라인업

  • WeDLM-7B: Qwen2.5-7B 기반, 32K 컨텍스트
  • WeDLM-8B: Qwen3-8B 기반, 32K 컨텍스트
  • Base / Instruct 모델 모두 제공하고, HuggingFace에서 다운로드 가능
  • Docker 이미지도 있어서 docker pull aiweiliu/wedlm:v3으로 바로 써볼 수 있음
  • 파인튜닝 프레임워크도 공개했고, dense/MagiAttention 백엔드 둘 다 지원

실용적 관점

  • chatllm.cpp에서도 WeDLM 모델을 지원하기 시작함
  • AR 베이스라인 대비 평가 스크립트도 제공해서 직접 벤치마크 재현 가능
  • 결국 핵심은 "디퓨전 LM인데 기존 AR 인프라를 그대로 쓸 수 있다"는 점인데, 이게 실제 프로덕션 배포에서 엄청난 차이를 만듦

디퓨전 LM의 실용화 걸림돌이었던 KV 캐시 비호환을 정면 돌파한 점이 인상적. 프로덕션 배포 가능성이 처음으로 열린 디퓨전 LM.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.