본문으로 건너뛰기
피드

딥시크 V4 프리뷰 공개, 오픈 웨이트에 기본 100만 토큰 컨텍스트까지

ai-ml 약 6분

딥시크가 V4 프리뷰를 공개하고 오픈 웨이트로 배포했어. 프로 모델은 총 1.6조 파라미터 중 490억 개를 활성화하고, 플래시 모델은 총 2840억 파라미터 중 130억 개를 활성화하는 구조야. 공식 서비스 전반에서 100만 토큰 컨텍스트를 기본으로 밀고, 기존 딥시크 챗과 딥시크 리즈너는 2026년 7월 24일 이후 종료될 예정이야.

  • 1

    딥시크 V4 프로와 플래시가 오픈 웨이트로 공개됐고 API도 바로 사용 가능해졌어

  • 2

    두 모델 모두 100만 토큰 컨텍스트와 사고 모드, 비사고 모드를 지원해

  • 3

    V4 프로는 에이전트 코딩, 수학, 과학, 코딩 벤치마크에서 현재 오픈 모델 최상위권을 주장해

  • 4

    기존 딥시크 챗과 딥시크 리즈너는 2026년 7월 24일 이후 접근이 막힐 예정이라 마이그레이션이 필요해

  • 딥시크가 V4 프리뷰를 공개했고, 이번에도 오픈 웨이트로 풀었음

    • 모델은 두 가지 라인업으로 나뉨
    • 딥시크 V4 프로는 총 1.6조 파라미터 중 490억 개를 활성화하는 모델
    • 딥시크 V4 플래시는 총 2840억 파라미터 중 130억 개를 활성화하는 더 빠르고 저렴한 모델
  • 제일 큰 숫자는 100만 토큰 컨텍스트임

    • 딥시크는 공식 서비스 전체에서 100만 토큰 컨텍스트를 기본값으로 제공한다고 밝힘
    • 긴 코드베이스, 대형 문서, 긴 로그, 여러 파일을 한 번에 먹이는 에이전트 작업에서 꽤 큰 의미가 있음
    • 이제 장문 컨텍스트가 일부 고가 모델의 특수 기능이 아니라 기본 경쟁 항목으로 내려오는 분위기임

중요

> 딥시크 V4의 핵심은 “오픈 웨이트 모델인데 100만 토큰 컨텍스트를 기본으로 준다”는 점임. 가격까지 공격적으로 잡히면 긴 문서 처리나 코딩 에이전트 비용 계산이 꽤 흔들릴 수 있음.

  • 성능 포지션은 대놓고 최상위 폐쇄형 모델을 겨냥하고 있음

    • V4 프로는 에이전트 코딩 벤치마크에서 오픈소스 최신 최고 수준이라고 주장함
    • 지식 벤치마크에서는 현재 오픈 모델을 앞서고, 제미나이 3.1 프로 바로 뒤라고 소개함
    • 수학, 과학, 코딩 추론에서도 기존 오픈 모델을 넘고 최상위 폐쇄형 모델과 경쟁한다고 밀고 있음
  • V4 플래시는 “싸고 빠른데 생각보다 덜 약한” 포지션임

    • 추론 능력은 V4 프로에 가깝다고 설명함
    • 단순 에이전트 작업에서는 V4 프로와 비슷한 수준의 성능을 낸다고 밝힘
    • 파라미터 규모가 작아서 응답 속도와 API 비용 쪽에서 더 유리한 선택지로 잡혀 있음
  • 기술적으로는 긴 컨텍스트 비용을 줄이는 데 꽤 힘을 준 발표임

    • 딥시크는 토큰 단위 압축과 딥시크 희소 어텐션을 새로운 어텐션 구조로 소개함
    • 긴 컨텍스트는 그냥 길게 받는다고 끝이 아니라 계산량과 메모리 비용이 바로 터지는 영역임
    • 그래서 100만 토큰을 기본으로 만들려면 어텐션 효율화가 사실상 본체임
  • 에이전트 개발 도구 통합도 전면에 나옴

    • 클로드 코드, 오픈클로, 오픈코드 같은 주요 AI 에이전트와 통합된다고 밝힘
    • 딥시크 내부에서도 에이전트 코딩에 V4를 이미 쓰고 있다고 설명함
    • 예시로 V4 프로가 생성한 PDF 결과물까지 공개하면서 단순 질의응답보다 작업 수행형 모델이라는 이미지를 강조함
  • API 마이그레이션은 비교적 단순하게 설계한 듯함

    • 기본 주소는 유지하고 모델명만 deepseek-v4-pro 또는 deepseek-v4-flash로 바꾸면 된다고 안내함
    • 오픈AI 챗 컴플리션과 앤트로픽 API 형식을 지원함
    • 두 모델 모두 사고 모드와 비사고 모드를 지원해서, 비용과 지연시간을 보고 모드를 나눠 쓰는 구성이 가능해짐

⚠️주의

> 기존 deepseek-chat과 deepseek-reasoner는 2026년 7월 24일 15시 59분 UTC 이후 완전히 종료되고 접근할 수 없게 됨. 지금은 각각 V4 플래시의 비사고 모드와 사고 모드로 라우팅되는 상태라, 프로덕션에서 쓰는 팀은 모델명 의존성을 확인해야 함.

  • 개발자 입장에서 바로 볼 포인트는 세 가지임
    • 긴 문서나 코드베이스를 한 번에 넣는 작업에서 100만 토큰 컨텍스트가 실제로 비용 대비 쓸 만한지
    • V4 플래시가 단순 에이전트 작업에서 얼마나 V4 프로를 대체할 수 있는지
    • 기존 딥시크 모델명을 쓰는 코드가 2026년 7월 종료 전에 안전하게 전환돼 있는지

기술 맥락

  • 딥시크가 총 파라미터와 활성 파라미터를 따로 강조한 건 비용 때문이에요. V4 프로가 총 1.6조 파라미터라고 해도 매 요청마다 전부 쓰는 구조가 아니고, 490억 개 정도만 활성화하는 방식이라 큰 모델의 성능과 추론 비용 사이에서 타협점을 잡으려는 거예요.

  • 100만 토큰 컨텍스트는 개발자 워크플로에서 꽤 현실적인 의미가 있어요. 코드 저장소 전체, 긴 설계 문서, 장애 로그 묶음을 잘라서 넣지 않아도 되면 에이전트가 앞뒤 맥락을 놓칠 확률이 줄어들거든요.

  • 다만 긴 컨텍스트는 공짜가 아니에요. 입력이 길어질수록 어텐션 계산과 메모리 사용량이 부담되기 때문에, 딥시크가 토큰 단위 압축과 딥시크 희소 어텐션을 같이 내세운 건 “길게 받는다”보다 “길게 받아도 감당한다” 쪽이 핵심이에요.

  • API 호환성을 오픈AI와 앤트로픽 쪽에 맞춘 것도 실무적으로 중요해요. 이미 사내 도구나 에이전트 프레임워크가 그 형식에 맞춰져 있으면, 기본 주소를 유지하고 모델명만 바꾸는 식으로 테스트 범위를 줄일 수 있거든요.

이 뉴스의 포인트는 단순히 새 모델 하나가 나온 게 아니라, 오픈 웨이트 모델이 100만 토큰 컨텍스트와 에이전트 코딩을 기본 전장으로 삼기 시작했다는 점이야. 한국 개발자 입장에선 비용, 긴 문서 처리, 코딩 에이전트 대체 가능성을 한 번에 다시 계산해봐야 하는 발표야.

댓글

댓글

댓글을 불러오는 중...

ai-ml

챗GPT 광고는 이렇게 대화창에 끼어들고 추적된다

한 연구자가 동의받은 모바일 트래픽에서 챗GPT 광고 삽입과 광고주 사이트 추적 흐름을 관찰했다. 챗GPT 백엔드는 대화 응답 스트림에 구조화된 광고 객체를 끼워 넣고, 광고주 사이트는 오픈AI의 OAIQ SDK로 클릭 이후 행동을 다시 보고하는 구조였다. 핵심은 Fernet 암호화 토큰 4개로 대화 속 광고 노출, 클릭, 광고주 페이지 방문, 이후 이벤트를 묶는 귀속 루프다.

ai-ml

대기업 승진 조건에 AI 역량이 들어오기 시작했다

국내 주요 대기업들이 인사 평가와 승진 요건에 인공지능 활용 역량을 넣기 시작했다. 동시에 AI가 신입의 기초 업무를 대체하면서 채용 축소와 숙련 사다리 붕괴 우려도 커지고 있다.

ai-ml

AI 자격증 500개 시대, 진짜 문제는 ‘AI’보다 불안 마케팅

한국에서 이름에 ‘AI’가 들어간 민간 자격증이 500개를 넘었지만, 실제 검증 시험이 치러진 건 50여 개뿐이라는 지적이 나왔다. AI 역량을 증명한다기보다 취업·재취업 불안을 파고드는 교육·자격증 비즈니스가 빠르게 커지고 있다는 얘기다.

ai-ml

몬드리안에이아이, LG AI 아카데미에 프라이빗 AI 클라우드 '런유어 클라우드' 공급

몬드리안에이아이가 LG AI연구원의 교육 프로그램 LG AI 아카데미에 자체 AI 클라우드 솔루션 '런유어 클라우드'를 공급했다. 엔터프라이즈 포털 + 실시간 자원 모니터링 대시보드 + 하이브리드 기술 지원 체계가 수주 결정 요인이었다.

ai-ml

AMD ROCm 7.0, CUDA 락인 정면 돌파 — 추론 3.5배·오픈소스 100%·개발자 10만 명 돌파

AMD가 ROCm 7.0과 개발자 생태계 공세로 엔비디아 CUDA 아성에 도전한다. 전작 대비 추론 3.5배, 훈련 3배 성능 향상을 주장하며 파이토치·vLLM 등 주요 프레임워크에서 코드 수정 없이 구동 가능하다는 호환성을 강조했다. 개발자 클라우드는 10개월 만에 주간 활성 사용자 3.2만 명을 확보했다.