---
title: "Redis 만든 antirez가 말하는 DS4, 로컬 AI가 드디어 '진짜 일'을 하기 시작했다"
published: 2026-05-14T22:29:12.000Z
canonical: https://jeff.news/article/2725
---
# Redis 만든 antirez가 말하는 DS4, 로컬 AI가 드디어 '진짜 일'을 하기 시작했다

antirez가 DwarfStar 4가 빠르게 주목받은 이유와 다음 방향을 정리했어. DeepSeek v4 Flash, 2/8비트 비대칭 양자화, 96~128GB 메모리 환경이 맞물리면서 로컬 모델이 Claude나 GPT에 묻던 '진짜 작업'을 일부 대체하기 시작했다는 이야기야.

- Redis 만든 antirez가 DwarfStar 4, 줄여서 DS4가 갑자기 뜬 이유를 직접 정리함
  - 본인도 이렇게 빨리 인기를 얻을 줄은 몰랐다고 함
  - 지난 한 주 평균 하루 14시간씩 작업했다고 밝힘
  - Redis 초창기 몇 달 이후로는 보통 하루 4~6시간 정도 일해왔다고 하니, 꽤 몰아친 셈임

- DS4가 먹힌 이유는 '로컬 AI가 드디어 쓸만해졌다'는 타이밍과 맞물림
  - antirez는 단일 모델 통합에 집중한 로컬 AI 경험에 대한 수요가 있었다고 봄
  - 여기에 DeepSeek v4 Flash 같은 준프런티어 모델이 등장했고, 크고 빠르면서도 로컬 추론 판을 바꿀 정도였다고 평가함
  - 특히 2/8비트의 매우 비대칭적인 양자화 조합이 잘 먹혀서 96GB나 128GB RAM으로도 돌릴 수 있다는 점이 컸음

> [!IMPORTANT]
> 이 글에서 제일 큰 신호는 '작은 로컬 모델이 장난감처럼 좋다'가 아님. antirez가 평소 Claude나 GPT에 물어보던 진지한 작업을 로컬 모델에 맡기기 시작했다는 대목임.

- 그는 DS4 경험을 기존 로컬 모델보다 온라인 프런티어 모델에 훨씬 가깝다고 표현함
  - 머릿속에서 작은 로컬 모델 경험을 A, 온라인 프런티어 모델 경험을 B라고 하면 DS4는 A보다 B에 훨씬 가깝다는 식임
  - DeepSeek v4 Flash에 대해 '정말 인상적인 모델'이라고 분명히 말함
  - Vector Steering을 쓰면서 LLM을 더 자유롭게 활용할 수 있었다는 점도 강조함

- DS4가 DeepSeek v4 Flash 하나로 끝나는 프로젝트는 아니라고 함
  - 목표는 고급 Mac이나 DGX Spark 같은 'GPU 박스' 장비에서 실질적으로 빠르게 도는 현재 최고의 오픈 가중치 모델을 얹는 것임
  - 다음 후보도 DeepSeek v4 Flash의 새 체크포인트일 가능성이 높다고 봄
  - 코딩에 특화된 버전, 법률용, 의료용 같은 전문가 변형 모델도 로컬 추론에서는 말이 된다고 봄
  - 질문에 따라 필요한 모델을 로드하는 식의 사용성을 상상하고 있음

- 다음 작업 목록도 꽤 구체적임
  - 품질 벤치마크를 정리하고, 프로젝트 안에 코딩 에이전트를 추가할 가능성이 있음
  - 장기 품질 관리를 위해 집에 CI 테스트를 돌릴 수 있는 하드웨어 셋업을 마련하려고 함
  - 더 많은 포트와 함께 분산 추론도 중요한 목표로 언급함
  - 분산 추론은 직렬 방식과 병렬 방식 모두를 보고 있음

- 마지막 문장이 이 글의 정서임. 'AI는 제공받는 서비스로만 남기엔 너무 중요하다'
  - 클라우드 AI 서비스가 편하고 강력한 건 맞지만, 로컬에서 통제 가능한 AI 스택을 갖는 것의 의미를 강하게 보고 있음
  - 개인 장비에서 강한 모델을 돌릴 수 있게 되면 비용, 프라이버시, 지연 시간, 실험 자유도가 전부 달라짐

---

## 기술 맥락

- DS4의 핵심 선택은 클라우드 API가 아니라 고성능 로컬 장비에서 단일 강한 모델을 잘 쓰는 경험에 집중한 거예요. 왜냐하면 로컬 AI는 모델이 조금만 약해도 바로 장난감처럼 느껴지고, 여러 모델을 억지로 엮으면 사용성이 흐려지기 쉬워요.

- 2/8비트 비대칭 양자화가 중요하게 나온 이유는 메모리 때문이에요. 큰 모델을 원래 정밀도로 올리면 개인 장비에서 버티기 어렵지만, 정밀도를 영리하게 낮추면 96GB나 128GB RAM 같은 고급 소비자 장비에서도 실용 속도를 노려볼 수 있거든요.

- antirez가 코딩·법률·의료 같은 변형 모델을 언급한 것도 같은 맥락이에요. 모든 질문에 하나의 범용 모델을 쓰기보다, 로컬에서는 필요한 작업에 맞는 모델을 그때그때 올리는 방식이 더 현실적일 수 있어요.

- 분산 추론 계획은 DS4가 단순 데모를 넘어 더 큰 모델과 더 다양한 하드웨어 구성을 바라본다는 신호예요. 한 대의 Mac이나 GPU 박스 한계를 넘으려면 추론을 어떻게 나누고 동기화할지가 다음 병목이 되기 때문이에요.

## 핵심 포인트

- DS4는 단일 모델 통합에 집중한 로컬 AI 경험을 목표로 하며, 일주일 만에 빠르게 만들어졌음
- DeepSeek v4 Flash가 고급 Mac이나 GPU 박스에서 실용적으로 빠르게 돌 수 있는 준프런티어 모델로 평가됨
- 향후 품질 벤치마크, 코딩 에이전트, CI용 로컬 하드웨어, 포팅, 직렬·병렬 분산 추론이 계획됨

## 인사이트

로컬 AI 얘기가 한동안 '재밌긴 한데 실무는 클라우드 모델'에 가까웠다면, 이 글은 분위기가 바뀌고 있다는 신호로 읽혀. 특히 96~128GB RAM에서 꽤 강한 모델을 실용 속도로 돌린다는 건 개인 개발자와 작은 팀에게도 의미가 있음.