딥시크, LLM 답변 속도 최대 85% 끌어올리는 오픈소스 추론 기술 공개
딥시크가 대규모 언어 모델(LLM)의 답변 품질은 건드리지 않고 추론 속도와 서버 처리량을 높이는 디스파크를 MIT 라이선스로 공개했다. 보조 모델이 답변 후보를 미리 만들고 메인 모델이 병렬로 검증하는 추측성 디코딩 방식이며, 실제 운영 테스트에서 사용자 체감 속도는 최대 85%, 처리량은 최대 661%까지 개선됐다고 밝혔다.
- 1
디스파크는 메인 모델을 바꾸지 않고 추론 단계만 최적화하는 오픈소스 프레임워크다.
- 2
보조 모델이 여러 토큰을 미리 예측하고 메인 모델이 한 번에 검증해 답변 생성 병목을 줄인다.
- 3
운영 테스트에서 답변 수신 속도는 57~85%, 극한 부하 상황의 처리량은 406~661% 개선됐다.
- 4
큐원, 젬마 같은 개방형 가중치 모델에도 적용 가능해 자체 호스팅 기업의 비용 절감 효과가 크다.
이건 모델 크기 경쟁만큼이나 서빙 최적화가 중요해졌다는 신호다. 오픈소스 모델을 직접 운영하는 팀이라면 모델 교체보다 먼저 추론 파이프라인을 손봐야 할 이유가 생겼다.
관련 기사
AI 신약개발, 이제 모델보다 ‘스스로 실험하는 연구실’이 병목을 푸는 핵심이라는 얘기
AI가 후보물질을 빠르게 뽑아내도 기존 습식 실험실 방식으로는 검증 속도를 따라가기 어렵다는 문제가 제기됐다. 보고서는 AI 예측, 로봇 실험, 데이터 분석, 모델 재학습이 반복되는 자율실험실 기반 폐루프 운영체계가 신약 연구개발 경쟁력의 핵심 인프라가 될 수 있다고 본다.
성인 10명 중 4명은 매일 AI 사용, 그런데 오래 쓸수록 우울·불안 위험도 같이 올라감
생성형 AI를 최근 한 달 안에 써본 성인 500명을 조사했더니 41.4%가 거의 매일 쓰고 있었고, 정보검색·학습뿐 아니라 정서적 위안이나 고민상담에도 활용되고 있었다. 특히 하루 2시간 이상 쓰는 집단에서 우울 위험군 41.2%, 불안 위험군 35.3%가 나와, AI가 생산성 도구를 넘어 심리적 의존의 대상이 되고 있다는 신호가 잡혔다.
기업 AI 비용 폭탄에 저가 중국 모델·라우팅 서비스로 눈 돌리는 중
기업들이 생산성 향상을 위해 AI 에이전트 사용을 늘렸다가 토큰 기반 과금 폭탄을 맞고 있음. 우버는 AI 코딩 도구 예산을 4개월 만에 소진했고, 기업들은 작업 난이도에 따라 저가 모델과 프리미엄 모델을 나눠 쓰는 라우팅 방식으로 비용을 줄이려는 중임.
AI 비용 폭탄 맞은 기업들, 중국산 저가 모델과 라우팅으로 눈 돌린다
기업들이 AI 에이전트를 업무에 대거 도입하면서 토큰 기반 종량제 비용이 예상보다 빠르게 불어나고 있다. 우버는 AI 코딩 도구 사용 증가로 올해 AI 예산을 4개월 만에 소진했고, 기업들은 중국산 오픈소스 모델과 AI 라우팅 서비스로 비용을 낮추려는 흐름을 보이고 있다.
혈관조영장비도 이제 하드웨어가 아니라 AI 플랫폼 싸움으로 간다
혈관조영장비 시장이 단순히 선명한 영상을 보여주는 장비 경쟁에서 AI, 3D, 증강현실(AR)을 묶은 플랫폼 경쟁으로 넘어가고 있어. GE헬스케어는 기존 알리아 장비를 새 제품으로 갈아타게 하는 대신 대형 업그레이드로 시술 계획, 의사결정, 유지보수까지 한 번에 끌어올리는 전략을 택했어.
댓글
댓글
댓글을 불러오는 중...