---
title: "샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다"
published: 2026-06-08T15:27:33.000Z
canonical: https://jeff.news/article/3892
---
# 샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다

샤오미 MiMo 팀과 TileRT가 1조 파라미터급 모델 MiMo-V2.5-Pro-UltraSpeed를 공개했고, 단일 8-GPU 범용 노드에서 초당 1000토큰 이상 디코딩 속도를 냈다고 밝힘. 핵심은 전용 하드웨어가 아니라 FP4 양자화, DFlash 투기적 디코딩, TileRT의 초저지연 실행 엔진을 모델-시스템 공동설계로 묶은 점임. API는 2026년 6월 9일부터 6월 23일까지 제한 신청제로 열리고, 가격은 기존 MiMo-V2.5-Pro의 3배지만 생성 속도는 약 10배라고 주장함.

- 샤오미가 MiMo-V2.5-Pro-UltraSpeed를 공개하면서 꽤 센 숫자를 들고 나옴 — 1조 파라미터(1T) 모델에서 초당 1000토큰 이상 디코딩 속도
  - 협업 파트너는 초저지연 추론 시스템을 만드는 TileRT
  - 샤오미 주장으로는 1T급 모델에서 1000 tokens/s를 깬 첫 사례
  - 단순히 작은 모델을 빠르게 돌린 게 아니라, 1조 파라미터급 플래그십 모델을 대상으로 한 발표라서 눈길이 감

- API도 같이 열리지만, 누구나 바로 쓰는 공개 서비스는 아님
  - 2026년 6월 9일부터 6월 23일 23:59 베이징 시간까지 제한 신청제로 운영
  - 가격은 MiMo-V2.5-Pro 대비 3배, 대신 생성 속도는 약 10배라고 홍보함
  - API 전용이고 토큰 플랜은 지원하지 않음
  - 승인된 사용자는 2주 동안 무료 Chat 접근도 받을 수 있음
  - 계정당 하루 큐 진입 10회, 세션당 30분 제한, 5분 이상 idle이면 세션 회수

> [!IMPORTANT]
> 여기서 핵심은 “빠른 모델”이 아니라 “1조 파라미터 모델을 범용 GPU 8장짜리 단일 노드에서 초당 1000토큰 이상으로 뽑았다”는 주장임. 맞다면 LLM 에이전트 UX의 병목이 꽤 달라질 수 있음.

- 샤오미가 속도를 이렇게 강조하는 이유는 명확함 — 에이전트는 답이 맞는 것만큼 빨리 반복하는 것도 중요하기 때문
  - 어려운 문제를 한 번 던지고 기다리는 방식이 아니라, 같은 시간 안에 여러 추론 경로를 돌리는 Best-of-N이나 Tree Search가 가능해짐
  - 모델이 여러 후보를 빠르게 만들고, 검증하고, 자기수정하는 루프를 돌릴 수 있으면 체감 지능 자체가 올라갈 수 있다는 논리
  - 코딩 에이전트도 마찬가지로, 개발자가 화면 앞에서 토큰이 찍히는 걸 기다리는 시간이 줄어듦

- 샤오미는 실시간 의사결정 루프까지 노리고 있음
  - 예시로 고빈도 퀀트 트레이딩 신호 생성, 실시간 사기 탐지, 지능형 입찰, 실시간 대화형 인터페이스를 언급함
  - 의료 영상 분석과 수술 보조처럼 지연 시간이 생명과 연결되는 영역도 예시로 듦
  - 다만 이런 적용 사례들은 실제 배포 검증이라기보다는 “이 속도면 이런 세계가 열린다”에 가까운 포지셔닝으로 읽는 게 맞음

## 어떻게 1000토큰/s를 만들었나

- 샤오미가 강조하는 포인트는 전용 하드웨어가 아니라 모델-시스템 공동설계임
  - 업계의 초고속 추론 접근은 Cerebras의 웨이퍼 스케일 통합이나 Groq의 온칩 SRAM 커스텀 아키텍처처럼 특수 하드웨어에 기대는 경우가 많음
  - MiMo와 TileRT는 범용 GPU 위에서 모델 구조, 양자화, 디코딩 알고리즘, 런타임 커널을 같이 맞추는 길을 택했다고 설명함
  - 결과적으로 단일 표준 8-GPU 범용 노드에서 1000+ tokens/s 출력을 달성했다는 주장

- 첫 번째 축은 FP4 양자화임 — 1T 모델에서는 메모리 대역폭이 곧 속도 병목이 됨
  - 1조 파라미터 규모에서는 FP8, INT8, 16비트 추론도 메모리 footprint와 대역폭 압박이 큼
  - 그래서 샤오미는 MXFP4 형식의 FP4 양자화를 사용했다고 밝힘
  - 하지만 전체 모델을 무작정 FP4로 낮추면 복잡한 추론, 논리, 코드 생성에서 품질이 떨어질 수 있음

- 그래서 모든 모듈을 FP4로 밀어버린 게 아니라, MoE Expert만 선택적으로 양자화함
  - MiMo-V2.5-Pro는 MoE 구조라서 Expert가 파라미터의 대부분을 차지함
  - 샤오미는 Expert가 양자화에 상대적으로 더 잘 버틴다고 보고, 이 부분만 FP4로 낮춤
  - 나머지 모듈은 원래 정밀도를 유지해 전체 능력 저하를 줄였다고 설명함
  - 여기에 FP4 QAT, 즉 양자화 인지 학습을 적용해 원본 모델과 거의 비슷한 성능을 유지했다고 주장함

- 두 번째 축은 DFlash 기반 투기적 디코딩임
  - 전통적인 투기적 디코딩은 작은 draft 모델이 다음 토큰을 미리 추측하고, 큰 모델이 그 후보를 검증하는 방식
  - 잘 맞으면 큰 모델이 한 번에 여러 토큰을 확정할 수 있어서, 원래의 “forward pass 한 번에 토큰 하나” 병목을 줄임
  - 문제는 draft 모델이 약하면 수락률이 낮고, draft 모델을 강하게 만들면 그 자체가 비용이 커지는 딜레마가 있음

- DFlash는 이 draft 단계의 직렬성을 더 줄이려는 접근임
  - 마스크된 위치 블록 전체를 한 번의 forward pass로 병렬 예측하는 방식
  - 샤오미는 이를 1T급 MoE와 long-context 시나리오에 맞게 커스텀 최적화했다고 밝힘
  - Muon 2차 옵티마이저와 모델 자기증류(self-distillation)를 써서 작은 mask block에서도 높은 수락률을 노렸다고 설명함

> [!IMPORTANT]
> 코딩 시나리오에서 평균 acceptance length가 6.30, 일부 샘플은 최대 7.14까지 나왔다고 함. 블록 크기가 8이니, 검증 한 번에 6~7개 토큰이 통과되는 셈이라 실제 처리량에 꽤 직접적으로 먹히는 숫자임.

- 다만 모든 시나리오에서 똑같이 잘 되는 건 아님
  - 코딩 같은 고가치 에이전트 시나리오에서는 수락 길이가 크게 개선됐다고 밝힘
  - 반대로 의미가 더 갈라지고 불확실성이 큰 일반 대화에서는 현재 수락률이 아직 높지 않다고 인정함
  - 즉 “코딩 에이전트에는 강한데, 범용 챗봇에서도 같은 속도 체감이 날지는 더 봐야 함” 정도로 읽히는 대목

## TileRT 쪽 병목 제거

- 1000 tokens/s 수준에서는 연산자 하나하나의 경계가 병목이 됨
  - 일반 추론 시스템에서는 operator launch, 하드웨어 동기화, 글로벌 메모리 왕복이 계속 발생함
  - 보통은 작은 오버헤드로 보이지만, 토큰 생성 주기가 마이크로초 단위로 내려가면 이 빈틈이 눈에 띄는 execution gap이 됨
  - TileRT는 이 연산자 경계에서 생기는 실행 공백을 줄이는 새 실행 모델을 도입했다고 설명함

- TileRT는 MiMo의 알고리즘 특성에 맞춰 컴파일 엔진과 커널을 따로 맞춤
  - MoE Expert FP4 양자화에 맞는 compute kernel
  - DFlash 투기적 디코딩 파이프라인에 맞는 실행 경로
  - persistent kernel, tile pipeline, 이기종 협업 같은 시스템 최적화를 언급함
  - 기사 표현대로면 모델 팀과 시스템 팀이 레이어 경계를 깨고 같이 설계한 케이스임

- 개발자 입장에서 중요한 건 “모델 API가 빨라졌다”보다 “추론 스택 전체가 제품 경쟁력이 됐다”는 쪽임
  - LLM 앱이 느리면 모델이 똑똑해도 에이전트 UX가 끊김
  - 반대로 초고속 디코딩이 가능하면 코드 생성, 자동 리뷰, 대량 후보 생성, 실시간 의사결정 같은 사용성이 확 달라짐
  - 특히 한국 개발팀이 자체 모델을 만들지 않더라도, 어떤 API와 런타임을 고를지 판단할 때 latency와 throughput을 더 세게 봐야 하는 흐름임

---

## 기술 맥락

- 이번 발표의 기술적 선택은 “1조 파라미터 모델을 그대로 빠르게 돌리자”가 아니라, 병목이 큰 부분만 정밀하게 줄이는 쪽이에요. 전체 모델을 FP4로 낮추면 품질이 흔들릴 수 있으니, 파라미터 대부분을 차지하면서도 양자화 내성이 높은 MoE Expert만 골라서 줄인 거예요.

- DFlash가 중요한 이유는 LLM 생성이 원래 토큰을 하나씩 이어 붙이는 구조라서, 아무리 GPU가 빨라도 직렬 병목이 남거든요. draft 모델이 블록 단위로 여러 후보를 만들고 큰 모델이 한 번에 검증하면, 수락률이 높을 때 실제 사용자 입장에서는 답변이 훨씬 빨리 쏟아져요.

- TileRT 쪽 최적화는 “커널 몇 개 빠르게 만들었다”보다 더 아래 레벨의 이야기예요. 초당 1000토큰을 노리면 연산자 실행 사이의 작은 대기, 동기화, 메모리 왕복도 다 보이기 때문에, 런타임 실행 모델 자체를 모델 구조에 맞춰야 해요.

- 그래서 이 발표는 모델 연구만의 성과라기보다, 모델 구조와 추론 시스템을 같이 설계한 사례로 보는 게 맞아요. 앞으로 코딩 에이전트나 실시간 LLM 제품을 만드는 팀은 모델 점수표만 볼 게 아니라, 양자화 방식, speculative decoding 수락률, 런타임 커널 최적화까지 같이 봐야 해요.

## 핵심 포인트

- 1조 파라미터 모델에서 초당 1000토큰 이상 디코딩 속도를 달성했다고 발표함
- 전용 칩이 아니라 범용 GPU 8장짜리 단일 노드에서 모델-시스템 공동설계로 속도를 끌어올린 점이 핵심임
- MoE Expert만 FP4로 선택 양자화하고 나머지 모듈은 원래 정밀도를 유지해 성능 저하를 줄였다고 설명함
- DFlash 기반 블록 단위 투기적 디코딩으로 코딩 시나리오에서 평균 6.30토큰, 최대 7.14토큰을 한 번에 수락함
- 고속 API는 2026년 6월 9일부터 23일까지 제한 신청제로 제공되며 세션과 큐 사용량 제한이 있음

## 인사이트

LLM 경쟁이 모델 크기와 벤치마크 점수에서 추론 지연 시간으로 확실히 넘어가고 있다는 신호임. 특히 전용 하드웨어 없이 범용 GPU에서 1T 모델 1000토큰/s를 주장했다는 점은, 에이전트와 코딩 도구를 만드는 팀들이 앞으로 모델 품질만큼 런타임 설계를 봐야 한다는 압박으로 이어질 수 있음.