본문으로 건너뛰기
피드

딥시크, LLM 답변 속도 최대 85% 끌어올리는 오픈소스 추론 기술 공개

ai-ml 약 5분
vote
0
댓글
북마크

딥시크가 대규모 언어 모델(LLM)의 답변 품질은 건드리지 않고 추론 속도와 서버 처리량을 높이는 디스파크를 MIT 라이선스로 공개했다. 보조 모델이 답변 후보를 미리 만들고 메인 모델이 병렬로 검증하는 추측성 디코딩 방식이며, 실제 운영 테스트에서 사용자 체감 속도는 최대 85%, 처리량은 최대 661%까지 개선됐다고 밝혔다.

  • 1

    디스파크는 메인 모델을 바꾸지 않고 추론 단계만 최적화하는 오픈소스 프레임워크다.

  • 2

    보조 모델이 여러 토큰을 미리 예측하고 메인 모델이 한 번에 검증해 답변 생성 병목을 줄인다.

  • 3

    운영 테스트에서 답변 수신 속도는 57~85%, 극한 부하 상황의 처리량은 406~661% 개선됐다.

  • 4

    큐원, 젬마 같은 개방형 가중치 모델에도 적용 가능해 자체 호스팅 기업의 비용 절감 효과가 크다.

  • 딥시크가 LLM 추론 속도를 끌어올리는 오픈소스 프레임워크 디스파크를 공개함

    • MIT 라이선스라 상업적 사용도 가능하고, 특정 딥시크 모델에만 묶인 기술도 아님
    • 목표는 모델의 ‘두뇌’를 바꾸는 게 아니라, 답변을 생성하고 검증하는 서빙 방식을 더 똑똑하게 만드는 것임
  • 핵심 아이디어는 큰 모델 혼자 한 토큰씩 끙끙대게 두지 않는 것임

    • 기존 챗봇은 다음 토큰을 만들 때 앞 문맥을 계속 확인하며 순차적으로 생성해서, 답변이 길수록 병목이 커짐
    • 디스파크는 가벼운 보조 모델이 몇 단계 앞의 토큰을 미리 예측하고, 메인 모델이 그 후보들을 병렬로 검증함
    • 맞는 예측은 한 번에 확정하고, 틀린 예측은 해당 부분만 버리니 답변 품질을 유지하면서 속도를 챙기는 구조임

중요

> 딥시크가 공개한 운영 테스트 기준으로 사용자 체감 답변 속도는 5785% 빨라졌고, 극한 부하 상황의 전체 처리량은 406661%까지 늘었다고 함.

  • 디스파크가 내세우는 차별점은 ‘그냥 추측’이 아니라 ‘덜 틀리게 추측’하는 쪽에 있음

    • 준자기회귀 생성 방식으로 보조 모델이 여러 토큰을 한 번에 찍으면서도 앞뒤 문맥 연결을 고려하게 만들었다고 함
    • 신뢰도 기반 스케줄러는 서버가 한산할 때는 긴 후보를 더 많이 검증하고, 서버가 바쁠 때는 틀릴 가능성이 큰 후보를 과감히 줄임
    • 그러니까 속도 최적화가 단순 벤치마크용 꼼수가 아니라 운영 부하까지 고려한 설계에 가깝다는 얘기임
  • 실전 검증에서도 꽤 센 숫자가 나옴

    • 커뮤니티의 초기 웜업 벤치마크에서는 코딩과 스트리밍 답변 속도가 기존 비투기적 방식보다 2.3배 이상 빨라졌다는 결과가 공유됨
    • 특히 수학 계산이나 코드 작성처럼 출력 패턴이 어느 정도 예측 가능한 워크플로우에서 효과가 크게 나타났다고 함
  • 파급력이 큰 이유는 딥시크 모델 전용 기능이 아니라는 점임

    • 딥시크는 큐원(Qwen), 젬마(Gemma) 같은 개방형 가중치 모델에서도 초안 수용률과 속도가 개선됐다는 오프라인 벤치마크를 공개함
    • 오픈소스 모델을 자체 서버나 클라우드에 올려 쓰는 기업은 모델을 갈아엎지 않고도 추론 비용을 줄일 수 있음
    • 반대로 닫힌 독점 API만 쓰는 팀은 이런 서빙 레이어 최적화를 직접 적용하기 어렵다는 한계가 있음
  • 기업 입장에서는 ‘더 큰 모델’보다 ‘더 싸게 잘 서빙하는 모델’이 중요해지는 흐름임

    • 딥시크는 데이터 준비, 학습 파이프라인, 평가 코드베이스인 DeepSpec도 함께 공개해 도메인 특화 드래프트 모델을 직접 미세조정할 수 있게 했다 함
    • 내부 문서, 코드베이스, 고객지원처럼 반복 패턴이 있는 업무라면 전용 보조 모델을 붙여 비용 대비 응답성을 높이는 그림이 가능함

기술 맥락

  • 디스파크의 선택은 모델 파라미터를 키우는 대신 추론 경로를 최적화하는 쪽이에요. LLM 서비스에서는 학습보다 운영 비용이 계속 반복해서 나가거든요. 같은 모델로 더 많은 요청을 처리할 수 있으면 GPU 증설 압박을 줄일 수 있어요.

  • 보조 모델을 두는 이유는 큰 모델이 매 토큰마다 비싼 계산을 하기 때문이에요. 작은 모델이 먼저 후보를 만들고 큰 모델이 검증만 하면, 예측이 맞는 구간에서는 여러 토큰을 한 번에 확정할 수 있어요.

  • 신뢰도 기반 스케줄러가 중요한 건 실제 서비스가 항상 한산하지 않기 때문이에요. 트래픽이 몰릴 때 무리하게 긴 후보를 검증하면 오히려 병목이 생길 수 있어서, 서버 상태에 맞춰 검증 범위를 조절하는 운영 로직이 필요해요.

  • 이 방식은 개방형 가중치 모델을 직접 운영하는 팀에 더 의미가 커요. API만 호출하는 구조에서는 서빙 내부를 만질 수 없지만, 자체 호스팅 환경에서는 드래프트 모델 학습과 추론 스케줄링을 서비스 특성에 맞게 튜닝할 수 있거든요.

이건 모델 크기 경쟁만큼이나 서빙 최적화가 중요해졌다는 신호다. 오픈소스 모델을 직접 운영하는 팀이라면 모델 교체보다 먼저 추론 파이프라인을 손봐야 할 이유가 생겼다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI 신약개발, 이제 모델보다 ‘스스로 실험하는 연구실’이 병목을 푸는 핵심이라는 얘기

AI가 후보물질을 빠르게 뽑아내도 기존 습식 실험실 방식으로는 검증 속도를 따라가기 어렵다는 문제가 제기됐다. 보고서는 AI 예측, 로봇 실험, 데이터 분석, 모델 재학습이 반복되는 자율실험실 기반 폐루프 운영체계가 신약 연구개발 경쟁력의 핵심 인프라가 될 수 있다고 본다.

ai-ml

성인 10명 중 4명은 매일 AI 사용, 그런데 오래 쓸수록 우울·불안 위험도 같이 올라감

생성형 AI를 최근 한 달 안에 써본 성인 500명을 조사했더니 41.4%가 거의 매일 쓰고 있었고, 정보검색·학습뿐 아니라 정서적 위안이나 고민상담에도 활용되고 있었다. 특히 하루 2시간 이상 쓰는 집단에서 우울 위험군 41.2%, 불안 위험군 35.3%가 나와, AI가 생산성 도구를 넘어 심리적 의존의 대상이 되고 있다는 신호가 잡혔다.

ai-ml

기업 AI 비용 폭탄에 저가 중국 모델·라우팅 서비스로 눈 돌리는 중

기업들이 생산성 향상을 위해 AI 에이전트 사용을 늘렸다가 토큰 기반 과금 폭탄을 맞고 있음. 우버는 AI 코딩 도구 예산을 4개월 만에 소진했고, 기업들은 작업 난이도에 따라 저가 모델과 프리미엄 모델을 나눠 쓰는 라우팅 방식으로 비용을 줄이려는 중임.

ai-ml

AI 비용 폭탄 맞은 기업들, 중국산 저가 모델과 라우팅으로 눈 돌린다

기업들이 AI 에이전트를 업무에 대거 도입하면서 토큰 기반 종량제 비용이 예상보다 빠르게 불어나고 있다. 우버는 AI 코딩 도구 사용 증가로 올해 AI 예산을 4개월 만에 소진했고, 기업들은 중국산 오픈소스 모델과 AI 라우팅 서비스로 비용을 낮추려는 흐름을 보이고 있다.

ai-ml

혈관조영장비도 이제 하드웨어가 아니라 AI 플랫폼 싸움으로 간다

혈관조영장비 시장이 단순히 선명한 영상을 보여주는 장비 경쟁에서 AI, 3D, 증강현실(AR)을 묶은 플랫폼 경쟁으로 넘어가고 있어. GE헬스케어는 기존 알리아 장비를 새 제품으로 갈아타게 하는 대신 대형 업그레이드로 시술 계획, 의사결정, 유지보수까지 한 번에 끌어올리는 전략을 택했어.