본문으로 건너뛰기
피드

딥시크 V4 공개 — 1.6T 오픈소스 역대 최대, 가격은 클로드 오퍼스의 1/10

ai-ml 약 6분
vote
0
댓글
북마크

딥시크가 1.6조 파라미터 규모의 오픈소스 플래그십 모델 DeepSeek-V4를 허깅페이스에 프리뷰 공개했다. MoE 구조로 활성 파라미터는 490억. 컨텍스트 창은 100만 토큰으로 V3.2 대비 8배 확장됐고, API 가격은 클로드 오퍼스의 10~20% 수준을 유지한다. 다만 프론티어 모델에는 대부분 벤치에서 밀린다.

  • 1

    DeepSeek-V4-Pro는 1.6T 파라미터 MoE 모델로 오픈소스 중 역대 최대 규모

  • 2

    하이브리드 어텐션 아키텍처로 100만 토큰 컨텍스트에서 V3.2 대비 FLOPs 27%, KV 캐시 10%만 소비

  • 3

    API 가격은 Pro 기준 100만 토큰당 입력 1.74달러·출력 3.48달러, 클로드 오퍼스 4.7의 1/10 수준

  • 4

    LiveCodeBench 93.5%·코드포스 3206점으로 코딩 벤치 일부에서 1위, 그러나 SWE-Verified·GDPval 등에서는 프론티어 모델에 밀림

  • 5

    화웨이가 당일 '어센드 슈퍼노드 전체가 V4 지원' 발표 — 최적화 엔지니어링이 출시 지연 원인

  • 딥시크가 24일 허깅페이스를 통해 플래그십 오픈소스 모델 'DeepSeek-V4' 시리즈를 프리뷰 공개 — MIT 라이선스로 누구나 수정·배포 가능
    • V4-Pro(1.6조 파라미터)와 V4-Flash(2840억 파라미터) 두 버전
    • 두 모델 모두 thinking/non-thinking 혼합형, 텍스트 입출력만 지원
    • 컨텍스트 창 100만 토큰 — V3.2의 128K 대비 8배 확장

Pro 버전 스펙 — 오픈소스 역대 최대 규모

  • 1.6T 파라미터에 MoE(전문가 혼합) 구조, 활성 파라미터는 490억 개
    • 딥시크 주장 "세계 최고 수준의 비공개 소스 모델에 필적하는 성능"
  • Flash 버전은 284B 파라미터 중 12B만 활성화, "빠르고 경제적"이라는 포지셔닝
  • 정밀도는 FP4/FP8 혼합, 추론 효율을 위한 설계가 핵심

효율 중심 아키텍처 — 추론 비용을 대폭 줄였다

  • 압축 희소 어텐션(CSA) + 고효율 압축 어텐션(HCA)을 결합한 '하이브리드 어텐션 아키텍처' 채택
    • 100만 토큰 컨텍스트에서 Pro 버전은 V3.2 대비 단일 토큰 추론 FLOPs 27%, KV 캐시 10%만 필요
    • 장기 컨텍스트 처리 비용을 공격적으로 깎아낸 수치
  • 지난 1월 발표했던 '매니폴드 제약 하이퍼 연결(mHC)'도 적용 — 레이어 간 신호 전파 안정성 향상
  • 학습에는 뮤온(Muon) 옵티마이저 사용, 32조 고품질 토큰으로 사전학습

벤치마크 — 오픈소스 1위, 프론티어엔 못 미침

  • LiveCodeBench 93.5%, 코드포스 3206점, APEX 숏리스트 90.2%로 세 항목에서 1위 차지
  • 그 외 대부분 영역에서는 클로드 오퍼스 4.6, GPT-5.4, 제미나이 3.1 프로에 밀림
    • SWE-Verified 80.6% 기록했으나 오퍼스 4.7(87.6%)엔 크게 못 미침
    • GDPval은 1554점으로 오픈소스 1위지만 폐쇄형 포함하면 GPT-5.5 등 오픈AI·앤스로픽 5종에 이어 6위

중요

> API 가격이 여전히 킬러 포인트 — V4-Pro는 100만 토큰당 입력 1.74달러 / 출력 3.48달러. 클로드 오퍼스 4.7(15달러 / 75달러)의 10~20% 수준

가격과 지정학

  • V4-Pro 가격은 V3.2 대비 6배 이상 인상했지만 경쟁 프론티어 모델 대비 여전히 훨씬 저렴
  • V4-Flash는 0.14달러 / 0.28달러로 V3.2 대비 오히려 절반 이하로 인하
  • 로이터 보도 기준, 딥시크는 학습에 엔비디아 칩 사용 인정 — 다만 수출 금지 대상 H200인지는 언급 피함
    • "오픈AI 모델 합성 데이터 의도적으로 안 썼다"며 증류 의혹도 부인
  • 화웨이는 같은 날 "어센드 슈퍼노드 전체가 DeepSeek-V4 지원" 발표 — V4 출시 지연 이유가 화웨이 칩 최적화 엔지니어링이었다는 점이 드러남

기술 맥락

DeepSeek-V4의 아키텍처 포인트는 '장기 컨텍스트를 싸게 처리하는 법'이에요. 일반적인 트랜스포머는 컨텍스트 길이가 늘어나면 어텐션 연산과 KV 캐시 메모리가 제곱으로 커지거든요. 100만 토큰까지 지원하겠다고 하면 그 비용이 감당이 안 되는데, CSA(압축 희소 어텐션)로 연산량을, HCA(고효율 압축 어텐션)로 KV 캐시를 압축해서 V3.2 대비 FLOPs 27%, KV 캐시 10%까지 줄였어요. 숫자로 보면 거의 1/4 비용으로 8배 긴 컨텍스트를 지원하겠다는 거예요.

MoE 구조를 1.6T 규모로 가져갔다는 것도 의미가 있어요. 활성 파라미터가 490억밖에 안 되기 때문에 추론 시 실질 연산량은 50B급 모델 수준이에요. 전체 지식은 1.6T 크기에 담되, 매 토큰 계산할 땐 일부 전문가만 켜는 방식이라 '저비용으로 큰 지식 모델'을 운용하는 핵심 패턴이에요. 최근 GPT-5, 클로드 등도 MoE 쪽으로 방향을 잡고 있어서 이제 프론티어는 대부분 MoE라고 봐도 되는 상황이에요.

화웨이 어센드 연계는 지정학적 맥락에서 중요해요. 딥시크가 엔비디아 칩으로 학습하고 어센드로 배포 최적화한다는 건, 중국 AI 생태계가 '학습은 엔비디아, 서비스는 국산 칩'으로 가는 경로를 실제로 검증해나가는 중이라는 신호예요. 국산 칩 기반 추론 비용이 낮아지면 중국 내 폐쇄 생태계가 오픈소스 모델로 돌아가는 게 비용 면에서 더 유리해지거든요.

딥시크는 프론티어 성능 경쟁보단 가성비+오픈소스+중국 칩 생태계 전략으로 가는 중. 프론티어 모델과의 간극은 분명해졌지만, 로컬 배포 쪽에서는 여전히 선택지가 별로 없어 시장 점유율은 유지할 듯.

댓글

댓글

댓글을 불러오는 중...

ai-ml

딥시크 V4 프로, 정밀도 평가에서 GPT 5.5 프로를 앞섰다는 벤치마크

DeepSeek V4 Pro가 정밀도 중심 평가에서 GPT 5.5 Pro를 38.0 대 33.0으로 앞섰다는 내용이다. 핵심은 모델이 얼마나 그럴듯하게 말하느냐가 아니라, 제약 조건을 얼마나 정확히 지키고 엣지 케이스를 덜 놓치느냐에 있었다.

ai-ml

엔비디아와 네이버, 기가와트급 AI 클라우드 동맹 띄운다

젠슨 황 엔비디아 최고경영자가 네이버 1784를 찾아 네이버와 함께 한국을 시작으로 전 세계에 거대한 AI 클라우드를 구축하겠다고 말했다. 네이버는 엔비디아와 국내 최대 하이퍼스케일 데이터센터 ‘각 세종’의 4배 규모에 해당하는 기가와트급 AI 팩토리 구축에 합의했다고 밝혔다.

ai-ml

젠슨 황이 네이버 1784에 온 이유, GPU 공급을 넘어 AI 클라우드 판 키우기

젠슨 황 엔비디아 CEO가 네이버 1784를 방문해 이해진 의장과 AI 인프라 협력 확대를 공식화함. 네이버는 엔비디아와 글로벌 AI 팩토리 사업을 추진하고, 2027년 55MW를 시작으로 2028년 200MW, 장기적으로 GW급 인프라까지 보겠다는 계획을 내놨음.

ai-ml

정부 2조 GPU 사업, 네이버클라우드·삼성SDS·엘리스그룹이 가져감

과기정통부가 2조800억원 규모의 첨단 GPU 확보 사업자로 네이버클라우드, 삼성SDS, 엘리스그룹을 선정함. 엔비디아 베라루빈 2천16장과 B300 7천688장, 총 9천704장을 확보해 공공·민간 AI 개발에 투입할 계획임.

ai-ml

LG CNS, 바이브 코딩을 넘어 기업 시스템까지 이해하는 AI 개발자 공개

LG CNS가 대규모 IT 시스템 구축·운영 전 과정을 자동화하는 에이전틱 AI 개발 플랫폼 AIND를 출시했다. 자연어 요구사항 입력부터 분석·설계, 코딩, 테스트·품질 검증까지 여러 AI 에이전트가 협업하고, 기업별 개발 표준·보안 규정·소스코드를 구조화한 지식 파운데이션으로 기존 시스템과의 충돌을 줄이는 방식이다.