---
title: "딥시크 V4 공개, 프런티어급 성능에 가격은 확 내려쳤다"
published: 2026-05-01T16:52:43.000Z
canonical: https://jeff.news/article/2086
---
# 딥시크 V4 공개, 프런티어급 성능에 가격은 확 내려쳤다

딥시크가 V4 시리즈 첫 프리뷰 모델인 V4 프로와 V4 플래시를 공개했어. 둘 다 100만 토큰 컨텍스트를 지원하는 전문가 혼합 모델이고, 특히 가격이 기존 프런티어 모델 대비 확 낮아서 꽤 센 신호로 보임.

## 딥시크 V4, 숫자부터 꽤 세다

- 딥시크가 V4 시리즈의 첫 프리뷰 모델 2개를 공개함
  - 이름은 `DeepSeek-V4-Pro`와 `DeepSeek-V4-Flash`
  - 둘 다 100만 토큰 컨텍스트를 지원하는 전문가 혼합 모델(Mixture of Experts)
  - 라이선스는 표준 MIT 라이선스라고 밝힘

- V4 프로는 현재 기준으로 가장 큰 오픈 웨이트 모델 후보로 보임
  - 총 1.6조 파라미터, 활성 파라미터는 490억
  - Kimi K2.6의 1.1조, GLM-5.1의 7540억보다 큼
  - 딥시크 V3.2의 6850억보다도 2배 이상 큰 규모임

- V4 플래시는 훨씬 가볍지만 그래도 만만한 크기는 아님
  - 총 2840억 파라미터, 활성 파라미터는 130억
  - Hugging Face 기준 파일 크기는 프로가 865GB, 플래시가 160GB
  - 글쓴이는 가볍게 양자화한 플래시라면 128GB M5 맥북 프로에서 돌릴 수 있지 않을까 기대하고 있음

## 진짜 포인트는 가격

- 딥시크 V4에서 가장 눈에 띄는 건 성능보다 가격임
  - V4 플래시는 입력 100만 토큰당 0.14달러, 출력 100만 토큰당 0.28달러
  - V4 프로는 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러
  - 장문 컨텍스트를 많이 쓰는 서비스라면 이 차이가 월말 청구서에서 바로 체감될 수준임

> [!IMPORTANT]
> 딥시크 V4 플래시는 비교 표에서 작은 모델군 중 가장 저렴하고, V4 프로는 큰 프런티어 모델군 중 가장 저렴한 축에 들어감.

- 비교 대상들을 보면 가격 압박이 꽤 노골적임
  - GPT-5.4 Nano는 입력 0.20달러, 출력 1.25달러라 플래시보다 비쌈
  - Gemini 3.1 Pro는 입력 2달러, 출력 12달러
  - GPT-5.4는 입력 2.50달러, 출력 15달러
  - Claude Opus 4.7은 입력 5달러, 출력 25달러
  - GPT-5.5는 입력 5달러, 출력 30달러

- 딥시크가 이렇게 싸게 낼 수 있는 이유로 논문은 효율성을 강조함
  - 100만 토큰 컨텍스트에서 V4 프로는 V3.2 대비 단일 토큰 FLOPs가 27% 수준
  - 같은 조건에서 KV cache 크기는 V3.2의 10% 수준
  - V4 플래시는 더 공격적이라 단일 토큰 FLOPs는 10%, KV cache는 7% 수준까지 내려간다고 설명함

## 성능은 거의 프런티어, 그래도 최상단은 아님

- 딥시크의 자체 벤치마크 기준 V4 프로는 주요 프런티어 모델들과 경쟁 가능한 수준임
  - 특히 reasoning token을 늘린 `DeepSeek-V4-Pro-Max`는 GPT-5.2와 Gemini 3.0 Pro보다 표준 reasoning 벤치마크에서 더 낫다고 주장함
  - 다만 GPT-5.4와 Gemini 3.1 Pro에는 약간 못 미친다고 적어둠
  - 딥시크 스스로도 최첨단 프런티어 모델보다 약 3~6개월 뒤처진 개발 궤적이라고 표현함

- 글쓴이는 OpenRouter와 `llm-openrouter` 플러그인으로 모델을 직접 호출해 봄
  - 예시 프롬프트는 “자전거 타는 펠리컨 SVG를 만들어 달라”는 식의 시각 생성 테스트였음
  - V3.2, V3.1, V3-0324 결과와 비교했을 때 이번 V4 결과가 꽤 괜찮았다고 평가함

- 개발자 입장에서는 “최고 성능이냐”보다 “이 가격에 이 정도면 어디까지 쓸 수 있냐”가 더 중요함
  - 고객 지원 요약, 코드 리뷰 보조, 대량 문서 처리, 긴 로그 분석처럼 토큰을 많이 먹는 작업에서 계산이 달라질 수 있음
  - 특히 100만 토큰 컨텍스트를 전제로 비용이 내려가면, 지금은 비싸서 못 하던 워크플로를 다시 설계할 여지가 생김

---

## 기술 맥락

- 딥시크 V4의 선택은 모델을 무작정 조밀하게 키우는 대신 전문가 혼합 모델(Mixture of Experts)로 가는 쪽이에요. 전체 파라미터는 크게 가져가되 요청마다 일부 전문가만 활성화하면, 모델 용량과 추론 비용 사이에서 타협점을 만들 수 있거든요.

- 100만 토큰 컨텍스트에서는 KV cache가 정말 큰 문제가 돼요. 프롬프트가 길어질수록 이전 토큰의 key와 value를 계속 들고 있어야 해서 메모리 비용이 폭발하는데, 딥시크는 이 부분을 V3.2 대비 7~10% 수준까지 줄였다고 주장해요.

- 가격표가 중요한 이유는 단순히 “싸다”가 아니에요. 입력과 출력 100만 토큰 단가가 내려가면, 검색 증강 생성(RAG), 대규모 코드베이스 분석, 긴 회의록 처리처럼 토큰을 대량으로 쓰는 기능의 제품 설계가 바뀌어요.

- 오픈 웨이트라는 점도 실무적으로 의미가 있어요. 160GB짜리 플래시 모델은 여전히 크지만, 양자화나 부분 로딩 같은 최적화를 붙이면 고성능 로컬 장비나 사내 인프라에서 실험할 여지가 생기거든요.

## 핵심 포인트

- V4 프로는 총 1.6조 파라미터, 활성 490억 파라미터 규모
- V4 플래시는 총 2840억 파라미터, 활성 130억 파라미터 규모
- 플래시 가격은 입력 100만 토큰당 0.14달러, 출력 100만 토큰당 0.28달러
- 프로 가격은 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러
- 딥시크 논문 기준 V4 프로 맥스는 GPT-5.4와 제미나이 3.1 프로에는 약간 못 미치며 3~6개월 뒤처진 수준

## 인사이트

오픈 웨이트 모델이 “쓸 만함”을 넘어 가격까지 프런티어 모델을 압박하는 구간에 들어왔다는 게 포인트야. 한국 개발팀 입장에서는 자체 호스팅이든 외부 라우터 사용이든, 장문 컨텍스트 비용 계산을 다시 해볼 만한 뉴스임.
