---
title: "엔비디아가 말하는 AI 추론 비용 절감의 진짜 무기, 칩이 아니라 소프트웨어 스택"
published: 2026-07-01T05:05:03.114Z
canonical: https://jeff.news/article/4460
---
# 엔비디아가 말하는 AI 추론 비용 절감의 진짜 무기, 칩이 아니라 소프트웨어 스택

엔비디아는 AI 인프라 경쟁의 기준이 최고 사양 칩에서 토큰당 비용으로 옮겨가고 있다고 본다. Blackwell과 풀스택 추론 소프트웨어를 함께 최적화해 DeepSeek V4의 토큰 비용을 한 달 만에 최대 5분의 1로 낮췄고, 처리량은 조합 최적화로 최대 20배까지 끌어올렸다고 설명한다.

- 엔비디아가 말하는 AI 인프라의 기준이 바뀌고 있음
  - 예전엔 최고 사양 칩을 얼마나 많이 갖고 있느냐가 관심사였음
  - 이제 프로덕션 AI 팩토리에서는 달러당, 와트당, 지연 시간 목표 안에서 얼마나 많은 유용한 토큰을 뽑느냐가 핵심 지표가 됨
  - 한마디로 토큰당 비용이 진짜 성능 지표가 되고 있다는 얘기임

- 엔비디아는 Blackwell에서 소프트웨어 스택만으로 꽤 큰 비용 절감을 만들었다고 주장함
  - NVIDIA GPU, CPU, 네트워킹, 시스템과 공동 설계된 추론 소프트웨어 스택을 강조함
  - Blackwell 플랫폼에서 DeepSeek V4 모델의 토큰 비용을 한 달 만에 최대 5배 절감했다고 밝힘
  - 비용이 5배 절감됐다는 건 같은 돈으로 약 5배 많은 토큰을 처리하거나, 기존 비용의 약 5분의 1로 낮출 수 있다는 의미임

> [!IMPORTANT]
> 숫자가 꽤 세다. 엔비디아는 개별 최적화 하나가 아니라 서빙, 런타임, 커널, 통신, 하드웨어 접근을 묶었을 때 처리량이 최대 20배까지 증가한다고 말함.

- 실제 고객 사례도 토큰 경제성 쪽에 맞춰져 있음
  - Baseten은 TensorRT-LLM으로 DeepSeek V4 Pro를 Blackwell GPU에서 서비스했고, 자체 런타임 최적화까지 더해 초당 토큰 처리량을 최대 50% 높였음
  - DigitalOcean은 Hippocratic AI가 Blackwell에서 헬스케어 AI를 돌리도록 지원했고, 1,000만 건의 환자 통화에서 첫 응답 시간을 0.5초 미만으로 유지하면서 추론 처리량을 30% 높였음
  - Deep Infra는 DeepSeek V4 같은 프런티어 오픈 모델을 출시 첫날부터 Blackwell에서 고성능으로 서비스한다고 함
  - Together AI는 TensorRT-LLM으로 Cursor의 실시간 코딩 경험을 위한 모델 최적화와 프로덕션 엔드포인트 구축을 지원했음

- 에이전틱 AI는 기존 웹 서비스처럼 단순히 서버만 늘린다고 끝나는 워크로드가 아님
  - 기존 웹, 검색, SaaS 요청은 대체로 데이터베이스 읽기와 쓰기 중심이라 경로가 비교적 예측 가능했음
  - 에이전트는 추론하고, 계획하고, 도구를 호출하고, 하위 에이전트를 만들고, 멀티턴 컨텍스트를 계속 관리함
  - 하나의 요청이 수백 개 하위 에이전트, 수천 개 작업, 여러 LLM, GPU, CPU, DPU, 스토리지 시스템으로 퍼질 수 있음

- 그래서 소프트웨어 스택이 낭비와 비용을 가르는 지점이 됨
  - 프로덕션 운영 계층은 분산 서빙, 오케스트레이션, 오토스케일링, 메모리 관리를 조율함
  - 애플리케이션 가속 계층은 컴퓨팅과 통신 중첩, 커널 퓨전 같은 런타임 최적화로 모델 실행 성능을 끌어올림
  - 인프라 접근 계층은 개발자가 디바이스 명령어나 데이터 전송 프로토콜을 직접 다루지 않아도 GPU, 네트워킹, 메모리 기능을 쓰게 해줌

- 엔비디아가 강조하는 최적화 묶음은 꽤 하드코어함
  - 디스어그리게이티드 서빙(disaggregated serving)은 추론 단계와 자원을 더 잘게 나눠 운영하는 방식임
  - NVLink 기반 대규모 전문가 병렬화는 전문가 혼합 모델 같은 구조에서 여러 GPU 간 통신을 효율화함
  - NVFP4 정밀도와 멀티 토큰 예측(multi-token prediction)은 연산량과 생성 속도를 함께 건드리는 최적화임
  - 이걸 따로따로 쓰는 게 아니라 한 시스템으로 엮을 때 처리량이 최대 20배까지 올라간다는 설명임

- 오픈소스 생태계는 엔비디아 입장에서 비용 절감 플라이휠임
  - PyTorch는 2016년부터 네이티브 CUDA 지원으로 출발했고, Tensor Cores, Transformer Engine, NVFP4 같은 기능을 익숙한 프레임워크 안으로 가져왔음
  - DFlash 스페큘레이티브 디코딩은 기존 하드웨어에서 처리량을 최대 15배 높일 수 있는 예로 언급됨
  - FastVideo는 1080p 영상을 5초 이내에 생성하는 사례로 소개됨

- DeepSeek V4 사례는 이 플라이휠을 보여주는 대표 예시임
  - 새 프런티어 오픈 모델이 나오면 vLLM, SGLang 같은 추론 프레임워크가 Blackwell용 데이 제로 배포 레시피를 갖출 수 있음
  - 그 결과 Blackwell에서 DeepSeek V4 성능이 약 한 달 만에 vLLM과 SGLang 전반에서 최대 5배 향상됐다고 함
  - 더 많은 개발자가 CUDA 네이티브 추론 경로를 최적화하고, 프로덕션 배포 경험이 다시 생태계로 돌아오면서 토큰당 비용이 계속 내려가는 구조임

---

## 기술 맥락

- 이 기사에서 중요한 선택은 추론 최적화를 칩 단독 문제가 아니라 전체 시스템 문제로 본다는 점이에요. LLM 요청 하나가 GPU 연산만 쓰는 게 아니라 네트워크, 메모리, 스토리지, 런타임 스케줄링까지 건드리기 때문에 병목도 여러 층에서 생기거든요.

- 디스어그리게이티드 서빙이 나오는 이유는 에이전틱 AI의 요청 패턴이 너무 들쭉날쭉하기 때문이에요. 긴 컨텍스트를 읽는 단계와 토큰을 생성하는 단계의 자원 요구가 다르니, 한 서버 묶음에 다 넣기보다 역할을 나눠야 활용률을 올릴 수 있어요.

- NVFP4나 멀티 토큰 예측은 모델 품질을 크게 망치지 않는 선에서 계산 비용을 줄이려는 선택이에요. 프로덕션에서는 벤치마크 최고점보다 지연 시간과 비용이 더 중요해지는 순간이 많아서, 이런 최적화가 실제 서비스 단가에 바로 영향을 줘요.

- CUDA 기반 오픈소스 생태계가 강조되는 것도 전략적이에요. 새 논문이나 새 모델이 PyTorch, vLLM, SGLang 쪽으로 들어오면 엔비디아 하드웨어에서 바로 성능 개선으로 이어질 가능성이 크기 때문이에요.

## 핵심 포인트

- AI 파일럿에서 프로덕션 AI 팩토리로 넘어가며 핵심 지표가 토큰당 비용으로 이동
- Blackwell에서 DeepSeek V4 토큰 비용을 한 달 만에 최대 5분의 1로 절감
- 디스어그리게이티드 서빙, 전문가 병렬화, NVFP4, 멀티 토큰 예측을 결합하면 처리량이 최대 20배 증가
- CUDA 기반 오픈소스 생태계가 새 모델과 최적화를 빠르게 Blackwell에 올리는 플라이휠 역할을 함

## 인사이트

엔비디아의 메시지는 명확하다. GPU 성능만 보는 시대는 끝났고, 추론 비용은 런타임, 서빙, 네트워크, 메모리, 오픈소스 생태계가 같이 움직일 때 내려간다는 얘기다.