---
title: "딥시크 V4 공개 — 1.6T 오픈소스 역대 최대, 가격은 클로드 오퍼스의 1/10"
published: 2026-04-24T08:11:03.397Z
canonical: https://jeff.news/article/1907
---
# 딥시크 V4 공개 — 1.6T 오픈소스 역대 최대, 가격은 클로드 오퍼스의 1/10

딥시크가 1.6조 파라미터 규모의 오픈소스 플래그십 모델 DeepSeek-V4를 허깅페이스에 프리뷰 공개했다. MoE 구조로 활성 파라미터는 490억. 컨텍스트 창은 100만 토큰으로 V3.2 대비 8배 확장됐고, API 가격은 클로드 오퍼스의 10~20% 수준을 유지한다. 다만 프론티어 모델에는 대부분 벤치에서 밀린다.

- 딥시크가 24일 허깅페이스를 통해 플래그십 오픈소스 모델 'DeepSeek-V4' 시리즈를 프리뷰 공개 — MIT 라이선스로 누구나 수정·배포 가능
  - V4-Pro(1.6조 파라미터)와 V4-Flash(2840억 파라미터) 두 버전
  - 두 모델 모두 thinking/non-thinking 혼합형, 텍스트 입출력만 지원
  - 컨텍스트 창 100만 토큰 — V3.2의 128K 대비 8배 확장

### Pro 버전 스펙 — 오픈소스 역대 최대 규모

- 1.6T 파라미터에 MoE(전문가 혼합) 구조, 활성 파라미터는 490억 개
  - 딥시크 주장 "세계 최고 수준의 비공개 소스 모델에 필적하는 성능"
- Flash 버전은 284B 파라미터 중 12B만 활성화, "빠르고 경제적"이라는 포지셔닝
- 정밀도는 FP4/FP8 혼합, 추론 효율을 위한 설계가 핵심

### 효율 중심 아키텍처 — 추론 비용을 대폭 줄였다

- 압축 희소 어텐션(CSA) + 고효율 압축 어텐션(HCA)을 결합한 '하이브리드 어텐션 아키텍처' 채택
  - 100만 토큰 컨텍스트에서 Pro 버전은 V3.2 대비 단일 토큰 추론 FLOPs 27%, KV 캐시 10%만 필요
  - 장기 컨텍스트 처리 비용을 공격적으로 깎아낸 수치
- 지난 1월 발표했던 '매니폴드 제약 하이퍼 연결(mHC)'도 적용 — 레이어 간 신호 전파 안정성 향상
- 학습에는 뮤온(Muon) 옵티마이저 사용, 32조 고품질 토큰으로 사전학습

### 벤치마크 — 오픈소스 1위, 프론티어엔 못 미침

- LiveCodeBench 93.5%, 코드포스 3206점, APEX 숏리스트 90.2%로 세 항목에서 1위 차지
- 그 외 대부분 영역에서는 클로드 오퍼스 4.6, GPT-5.4, 제미나이 3.1 프로에 밀림
  - SWE-Verified 80.6% 기록했으나 오퍼스 4.7(87.6%)엔 크게 못 미침
  - GDPval은 1554점으로 오픈소스 1위지만 폐쇄형 포함하면 GPT-5.5 등 오픈AI·앤스로픽 5종에 이어 6위

> [!IMPORTANT]
> API 가격이 여전히 킬러 포인트 — V4-Pro는 100만 토큰당 입력 1.74달러 / 출력 3.48달러. 클로드 오퍼스 4.7(15달러 / 75달러)의 10~20% 수준

### 가격과 지정학

- V4-Pro 가격은 V3.2 대비 6배 이상 인상했지만 경쟁 프론티어 모델 대비 여전히 훨씬 저렴
- V4-Flash는 0.14달러 / 0.28달러로 V3.2 대비 오히려 절반 이하로 인하
- 로이터 보도 기준, 딥시크는 학습에 엔비디아 칩 사용 인정 — 다만 수출 금지 대상 H200인지는 언급 피함
  - "오픈AI 모델 합성 데이터 의도적으로 안 썼다"며 증류 의혹도 부인
- 화웨이는 같은 날 "어센드 슈퍼노드 전체가 DeepSeek-V4 지원" 발표 — V4 출시 지연 이유가 화웨이 칩 최적화 엔지니어링이었다는 점이 드러남

---

## 기술 맥락

DeepSeek-V4의 아키텍처 포인트는 '장기 컨텍스트를 싸게 처리하는 법'이에요. 일반적인 트랜스포머는 컨텍스트 길이가 늘어나면 어텐션 연산과 KV 캐시 메모리가 제곱으로 커지거든요. 100만 토큰까지 지원하겠다고 하면 그 비용이 감당이 안 되는데, CSA(압축 희소 어텐션)로 연산량을, HCA(고효율 압축 어텐션)로 KV 캐시를 압축해서 V3.2 대비 FLOPs 27%, KV 캐시 10%까지 줄였어요. 숫자로 보면 거의 1/4 비용으로 8배 긴 컨텍스트를 지원하겠다는 거예요.

MoE 구조를 1.6T 규모로 가져갔다는 것도 의미가 있어요. 활성 파라미터가 490억밖에 안 되기 때문에 추론 시 실질 연산량은 50B급 모델 수준이에요. 전체 지식은 1.6T 크기에 담되, 매 토큰 계산할 땐 일부 전문가만 켜는 방식이라 '저비용으로 큰 지식 모델'을 운용하는 핵심 패턴이에요. 최근 GPT-5, 클로드 등도 MoE 쪽으로 방향을 잡고 있어서 이제 프론티어는 대부분 MoE라고 봐도 되는 상황이에요.

화웨이 어센드 연계는 지정학적 맥락에서 중요해요. 딥시크가 엔비디아 칩으로 학습하고 어센드로 배포 최적화한다는 건, 중국 AI 생태계가 '학습은 엔비디아, 서비스는 국산 칩'으로 가는 경로를 실제로 검증해나가는 중이라는 신호예요. 국산 칩 기반 추론 비용이 낮아지면 중국 내 폐쇄 생태계가 오픈소스 모델로 돌아가는 게 비용 면에서 더 유리해지거든요.

## 핵심 포인트

- DeepSeek-V4-Pro는 1.6T 파라미터 MoE 모델로 오픈소스 중 역대 최대 규모
- 하이브리드 어텐션 아키텍처로 100만 토큰 컨텍스트에서 V3.2 대비 FLOPs 27%, KV 캐시 10%만 소비
- API 가격은 Pro 기준 100만 토큰당 입력 1.74달러·출력 3.48달러, 클로드 오퍼스 4.7의 1/10 수준
- LiveCodeBench 93.5%·코드포스 3206점으로 코딩 벤치 일부에서 1위, 그러나 SWE-Verified·GDPval 등에서는 프론티어 모델에 밀림
- 화웨이가 당일 '어센드 슈퍼노드 전체가 V4 지원' 발표 — 최적화 엔지니어링이 출시 지연 원인

## 인사이트

딥시크는 프론티어 성능 경쟁보단 가성비+오픈소스+중국 칩 생태계 전략으로 가는 중. 프론티어 모델과의 간극은 분명해졌지만, 로컬 배포 쪽에서는 여전히 선택지가 별로 없어 시장 점유율은 유지할 듯.