---
title: "딥시크, LLM 답변 속도 최대 85% 끌어올리는 오픈소스 추론 기술 공개"
published: 2026-06-30T11:05:03.277Z
canonical: https://jeff.news/article/4433
---
# 딥시크, LLM 답변 속도 최대 85% 끌어올리는 오픈소스 추론 기술 공개

딥시크가 대규모 언어 모델(LLM)의 답변 품질은 건드리지 않고 추론 속도와 서버 처리량을 높이는 디스파크를 MIT 라이선스로 공개했다. 보조 모델이 답변 후보를 미리 만들고 메인 모델이 병렬로 검증하는 추측성 디코딩 방식이며, 실제 운영 테스트에서 사용자 체감 속도는 최대 85%, 처리량은 최대 661%까지 개선됐다고 밝혔다.

- 딥시크가 LLM 추론 속도를 끌어올리는 오픈소스 프레임워크 디스파크를 공개함
  - MIT 라이선스라 상업적 사용도 가능하고, 특정 딥시크 모델에만 묶인 기술도 아님
  - 목표는 모델의 ‘두뇌’를 바꾸는 게 아니라, 답변을 생성하고 검증하는 서빙 방식을 더 똑똑하게 만드는 것임

- 핵심 아이디어는 큰 모델 혼자 한 토큰씩 끙끙대게 두지 않는 것임
  - 기존 챗봇은 다음 토큰을 만들 때 앞 문맥을 계속 확인하며 순차적으로 생성해서, 답변이 길수록 병목이 커짐
  - 디스파크는 가벼운 보조 모델이 몇 단계 앞의 토큰을 미리 예측하고, 메인 모델이 그 후보들을 병렬로 검증함
  - 맞는 예측은 한 번에 확정하고, 틀린 예측은 해당 부분만 버리니 답변 품질을 유지하면서 속도를 챙기는 구조임

> [!IMPORTANT]
> 딥시크가 공개한 운영 테스트 기준으로 사용자 체감 답변 속도는 57~85% 빨라졌고, 극한 부하 상황의 전체 처리량은 406~661%까지 늘었다고 함.

- 디스파크가 내세우는 차별점은 ‘그냥 추측’이 아니라 ‘덜 틀리게 추측’하는 쪽에 있음
  - 준자기회귀 생성 방식으로 보조 모델이 여러 토큰을 한 번에 찍으면서도 앞뒤 문맥 연결을 고려하게 만들었다고 함
  - 신뢰도 기반 스케줄러는 서버가 한산할 때는 긴 후보를 더 많이 검증하고, 서버가 바쁠 때는 틀릴 가능성이 큰 후보를 과감히 줄임
  - 그러니까 속도 최적화가 단순 벤치마크용 꼼수가 아니라 운영 부하까지 고려한 설계에 가깝다는 얘기임

- 실전 검증에서도 꽤 센 숫자가 나옴
  - 커뮤니티의 초기 웜업 벤치마크에서는 코딩과 스트리밍 답변 속도가 기존 비투기적 방식보다 2.3배 이상 빨라졌다는 결과가 공유됨
  - 특히 수학 계산이나 코드 작성처럼 출력 패턴이 어느 정도 예측 가능한 워크플로우에서 효과가 크게 나타났다고 함

- 파급력이 큰 이유는 딥시크 모델 전용 기능이 아니라는 점임
  - 딥시크는 큐원(Qwen), 젬마(Gemma) 같은 개방형 가중치 모델에서도 초안 수용률과 속도가 개선됐다는 오프라인 벤치마크를 공개함
  - 오픈소스 모델을 자체 서버나 클라우드에 올려 쓰는 기업은 모델을 갈아엎지 않고도 추론 비용을 줄일 수 있음
  - 반대로 닫힌 독점 API만 쓰는 팀은 이런 서빙 레이어 최적화를 직접 적용하기 어렵다는 한계가 있음

- 기업 입장에서는 ‘더 큰 모델’보다 ‘더 싸게 잘 서빙하는 모델’이 중요해지는 흐름임
  - 딥시크는 데이터 준비, 학습 파이프라인, 평가 코드베이스인 DeepSpec도 함께 공개해 도메인 특화 드래프트 모델을 직접 미세조정할 수 있게 했다 함
  - 내부 문서, 코드베이스, 고객지원처럼 반복 패턴이 있는 업무라면 전용 보조 모델을 붙여 비용 대비 응답성을 높이는 그림이 가능함

---
## 기술 맥락

- 디스파크의 선택은 모델 파라미터를 키우는 대신 추론 경로를 최적화하는 쪽이에요. LLM 서비스에서는 학습보다 운영 비용이 계속 반복해서 나가거든요. 같은 모델로 더 많은 요청을 처리할 수 있으면 GPU 증설 압박을 줄일 수 있어요.

- 보조 모델을 두는 이유는 큰 모델이 매 토큰마다 비싼 계산을 하기 때문이에요. 작은 모델이 먼저 후보를 만들고 큰 모델이 검증만 하면, 예측이 맞는 구간에서는 여러 토큰을 한 번에 확정할 수 있어요.

- 신뢰도 기반 스케줄러가 중요한 건 실제 서비스가 항상 한산하지 않기 때문이에요. 트래픽이 몰릴 때 무리하게 긴 후보를 검증하면 오히려 병목이 생길 수 있어서, 서버 상태에 맞춰 검증 범위를 조절하는 운영 로직이 필요해요.

- 이 방식은 개방형 가중치 모델을 직접 운영하는 팀에 더 의미가 커요. API만 호출하는 구조에서는 서빙 내부를 만질 수 없지만, 자체 호스팅 환경에서는 드래프트 모델 학습과 추론 스케줄링을 서비스 특성에 맞게 튜닝할 수 있거든요.

## 핵심 포인트

- 디스파크는 메인 모델을 바꾸지 않고 추론 단계만 최적화하는 오픈소스 프레임워크다.
- 보조 모델이 여러 토큰을 미리 예측하고 메인 모델이 한 번에 검증해 답변 생성 병목을 줄인다.
- 운영 테스트에서 답변 수신 속도는 57~85%, 극한 부하 상황의 처리량은 406~661% 개선됐다.
- 큐원, 젬마 같은 개방형 가중치 모델에도 적용 가능해 자체 호스팅 기업의 비용 절감 효과가 크다.

## 인사이트

이건 모델 크기 경쟁만큼이나 서빙 최적화가 중요해졌다는 신호다. 오픈소스 모델을 직접 운영하는 팀이라면 모델 교체보다 먼저 추론 파이프라인을 손봐야 할 이유가 생겼다.
