샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다

ai-ml 2026-06-08 약 10분

 tags

#llm #inference #quantization #gpu #speculative-decoding

vote

북마크

샤오미 MiMo 팀과 TileRT가 1조 파라미터급 모델 MiMo-V2.5-Pro-UltraSpeed를 공개했고, 단일 8-GPU 범용 노드에서 초당 1000토큰 이상 디코딩 속도를 냈다고 밝힘. 핵심은 전용 하드웨어가 아니라 FP4 양자화, DFlash 투기적 디코딩, TileRT의 초저지연 실행 엔진을 모델-시스템 공동설계로 묶은 점임. API는 2026년 6월 9일부터 6월 23일까지 제한 신청제로 열리고, 가격은 기존 MiMo-V2.5-Pro의 3배지만 생성 속도는 약 10배라고 주장함.

1
1조 파라미터 모델에서 초당 1000토큰 이상 디코딩 속도를 달성했다고 발표함
2
전용 칩이 아니라 범용 GPU 8장짜리 단일 노드에서 모델-시스템 공동설계로 속도를 끌어올린 점이 핵심임
3
MoE Expert만 FP4로 선택 양자화하고 나머지 모듈은 원래 정밀도를 유지해 성능 저하를 줄였다고 설명함
4
DFlash 기반 블록 단위 투기적 디코딩으로 코딩 시나리오에서 평균 6.30토큰, 최대 7.14토큰을 한 번에 수락함
5
고속 API는 2026년 6월 9일부터 23일까지 제한 신청제로 제공되며 세션과 큐 사용량 제한이 있음

샤오미가 MiMo-V2.5-Pro-UltraSpeed를 공개하면서 꽤 센 숫자를 들고 나옴 — 1조 파라미터(1T) 모델에서 초당 1000토큰 이상 디코딩 속도
- 협업 파트너는 초저지연 추론 시스템을 만드는 TileRT
- 샤오미 주장으로는 1T급 모델에서 1000 tokens/s를 깬 첫 사례
- 단순히 작은 모델을 빠르게 돌린 게 아니라, 1조 파라미터급 플래그십 모델을 대상으로 한 발표라서 눈길이 감
API도 같이 열리지만, 누구나 바로 쓰는 공개 서비스는 아님
- 2026년 6월 9일부터 6월 23일 23:59 베이징 시간까지 제한 신청제로 운영
- 가격은 MiMo-V2.5-Pro 대비 3배, 대신 생성 속도는 약 10배라고 홍보함
- API 전용이고 토큰 플랜은 지원하지 않음
- 승인된 사용자는 2주 동안 무료 Chat 접근도 받을 수 있음
- 계정당 하루 큐 진입 10회, 세션당 30분 제한, 5분 이상 idle이면 세션 회수

❗중요

> 여기서 핵심은 “빠른 모델”이 아니라 “1조 파라미터 모델을 범용 GPU 8장짜리 단일 노드에서 초당 1000토큰 이상으로 뽑았다”는 주장임. 맞다면 LLM 에이전트 UX의 병목이 꽤 달라질 수 있음.

샤오미가 속도를 이렇게 강조하는 이유는 명확함 — 에이전트는 답이 맞는 것만큼 빨리 반복하는 것도 중요하기 때문
- 어려운 문제를 한 번 던지고 기다리는 방식이 아니라, 같은 시간 안에 여러 추론 경로를 돌리는 Best-of-N이나 Tree Search가 가능해짐
- 모델이 여러 후보를 빠르게 만들고, 검증하고, 자기수정하는 루프를 돌릴 수 있으면 체감 지능 자체가 올라갈 수 있다는 논리
- 코딩 에이전트도 마찬가지로, 개발자가 화면 앞에서 토큰이 찍히는 걸 기다리는 시간이 줄어듦
샤오미는 실시간 의사결정 루프까지 노리고 있음
- 예시로 고빈도 퀀트 트레이딩 신호 생성, 실시간 사기 탐지, 지능형 입찰, 실시간 대화형 인터페이스를 언급함
- 의료 영상 분석과 수술 보조처럼 지연 시간이 생명과 연결되는 영역도 예시로 듦
- 다만 이런 적용 사례들은 실제 배포 검증이라기보다는 “이 속도면 이런 세계가 열린다”에 가까운 포지셔닝으로 읽는 게 맞음

어떻게 1000토큰/s를 만들었나

샤오미가 강조하는 포인트는 전용 하드웨어가 아니라 모델-시스템 공동설계임
- 업계의 초고속 추론 접근은 Cerebras의 웨이퍼 스케일 통합이나 Groq의 온칩 SRAM 커스텀 아키텍처처럼 특수 하드웨어에 기대는 경우가 많음
- MiMo와 TileRT는 범용 GPU 위에서 모델 구조, 양자화, 디코딩 알고리즘, 런타임 커널을 같이 맞추는 길을 택했다고 설명함
- 결과적으로 단일 표준 8-GPU 범용 노드에서 1000+ tokens/s 출력을 달성했다는 주장
첫 번째 축은 FP4 양자화임 — 1T 모델에서는 메모리 대역폭이 곧 속도 병목이 됨
- 1조 파라미터 규모에서는 FP8, INT8, 16비트 추론도 메모리 footprint와 대역폭 압박이 큼
- 그래서 샤오미는 MXFP4 형식의 FP4 양자화를 사용했다고 밝힘
- 하지만 전체 모델을 무작정 FP4로 낮추면 복잡한 추론, 논리, 코드 생성에서 품질이 떨어질 수 있음
그래서 모든 모듈을 FP4로 밀어버린 게 아니라, MoE Expert만 선택적으로 양자화함
- MiMo-V2.5-Pro는 MoE 구조라서 Expert가 파라미터의 대부분을 차지함
- 샤오미는 Expert가 양자화에 상대적으로 더 잘 버틴다고 보고, 이 부분만 FP4로 낮춤
- 나머지 모듈은 원래 정밀도를 유지해 전체 능력 저하를 줄였다고 설명함
- 여기에 FP4 QAT, 즉 양자화 인지 학습을 적용해 원본 모델과 거의 비슷한 성능을 유지했다고 주장함
두 번째 축은 DFlash 기반 투기적 디코딩임
- 전통적인 투기적 디코딩은 작은 draft 모델이 다음 토큰을 미리 추측하고, 큰 모델이 그 후보를 검증하는 방식
- 잘 맞으면 큰 모델이 한 번에 여러 토큰을 확정할 수 있어서, 원래의 “forward pass 한 번에 토큰 하나” 병목을 줄임
- 문제는 draft 모델이 약하면 수락률이 낮고, draft 모델을 강하게 만들면 그 자체가 비용이 커지는 딜레마가 있음
DFlash는 이 draft 단계의 직렬성을 더 줄이려는 접근임
- 마스크된 위치 블록 전체를 한 번의 forward pass로 병렬 예측하는 방식
- 샤오미는 이를 1T급 MoE와 long-context 시나리오에 맞게 커스텀 최적화했다고 밝힘
- Muon 2차 옵티마이저와 모델 자기증류(self-distillation)를 써서 작은 mask block에서도 높은 수락률을 노렸다고 설명함

❗중요

> 코딩 시나리오에서 평균 acceptance length가 6.30, 일부 샘플은 최대 7.14까지 나왔다고 함. 블록 크기가 8이니, 검증 한 번에 6~7개 토큰이 통과되는 셈이라 실제 처리량에 꽤 직접적으로 먹히는 숫자임.

다만 모든 시나리오에서 똑같이 잘 되는 건 아님
- 코딩 같은 고가치 에이전트 시나리오에서는 수락 길이가 크게 개선됐다고 밝힘
- 반대로 의미가 더 갈라지고 불확실성이 큰 일반 대화에서는 현재 수락률이 아직 높지 않다고 인정함
- 즉 “코딩 에이전트에는 강한데, 범용 챗봇에서도 같은 속도 체감이 날지는 더 봐야 함” 정도로 읽히는 대목

TileRT 쪽 병목 제거

1000 tokens/s 수준에서는 연산자 하나하나의 경계가 병목이 됨
- 일반 추론 시스템에서는 operator launch, 하드웨어 동기화, 글로벌 메모리 왕복이 계속 발생함
- 보통은 작은 오버헤드로 보이지만, 토큰 생성 주기가 마이크로초 단위로 내려가면 이 빈틈이 눈에 띄는 execution gap이 됨
- TileRT는 이 연산자 경계에서 생기는 실행 공백을 줄이는 새 실행 모델을 도입했다고 설명함
TileRT는 MiMo의 알고리즘 특성에 맞춰 컴파일 엔진과 커널을 따로 맞춤
- MoE Expert FP4 양자화에 맞는 compute kernel
- DFlash 투기적 디코딩 파이프라인에 맞는 실행 경로
- persistent kernel, tile pipeline, 이기종 협업 같은 시스템 최적화를 언급함
- 기사 표현대로면 모델 팀과 시스템 팀이 레이어 경계를 깨고 같이 설계한 케이스임
개발자 입장에서 중요한 건 “모델 API가 빨라졌다”보다 “추론 스택 전체가 제품 경쟁력이 됐다”는 쪽임
- LLM 앱이 느리면 모델이 똑똑해도 에이전트 UX가 끊김
- 반대로 초고속 디코딩이 가능하면 코드 생성, 자동 리뷰, 대량 후보 생성, 실시간 의사결정 같은 사용성이 확 달라짐
- 특히 한국 개발팀이 자체 모델을 만들지 않더라도, 어떤 API와 런타임을 고를지 판단할 때 latency와 throughput을 더 세게 봐야 하는 흐름임

기술 맥락

이번 발표의 기술적 선택은 “1조 파라미터 모델을 그대로 빠르게 돌리자”가 아니라, 병목이 큰 부분만 정밀하게 줄이는 쪽이에요. 전체 모델을 FP4로 낮추면 품질이 흔들릴 수 있으니, 파라미터 대부분을 차지하면서도 양자화 내성이 높은 MoE Expert만 골라서 줄인 거예요.
DFlash가 중요한 이유는 LLM 생성이 원래 토큰을 하나씩 이어 붙이는 구조라서, 아무리 GPU가 빨라도 직렬 병목이 남거든요. draft 모델이 블록 단위로 여러 후보를 만들고 큰 모델이 한 번에 검증하면, 수락률이 높을 때 실제 사용자 입장에서는 답변이 훨씬 빨리 쏟아져요.
TileRT 쪽 최적화는 “커널 몇 개 빠르게 만들었다”보다 더 아래 레벨의 이야기예요. 초당 1000토큰을 노리면 연산자 실행 사이의 작은 대기, 동기화, 메모리 왕복도 다 보이기 때문에, 런타임 실행 모델 자체를 모델 구조에 맞춰야 해요.
그래서 이 발표는 모델 연구만의 성과라기보다, 모델 구조와 추론 시스템을 같이 설계한 사례로 보는 게 맞아요. 앞으로 코딩 에이전트나 실시간 LLM 제품을 만드는 팀은 모델 점수표만 볼 게 아니라, 양자화 방식, speculative decoding 수락률, 런타임 커널 최적화까지 같이 봐야 해요.

LLM 경쟁이 모델 크기와 벤치마크 점수에서 추론 지연 시간으로 확실히 넘어가고 있다는 신호임. 특히 전용 하드웨어 없이 범용 GPU에서 1T 모델 1000토큰/s를 주장했다는 점은, 에이전트와 코딩 도구를 만드는 팀들이 앞으로 모델 품질만큼 런타임 설계를 봐야 한다는 압박으로 이어질 수 있음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다

요약

핵심 포인트

핵심 개념

분석

어떻게 1000토큰/s를 만들었나

TileRT 쪽 병목 제거

기술 맥락

인사이트

댓글

댓글

샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다

요약

핵심 포인트

핵심 개념

분석

어떻게 1000토큰/s를 만들었나

TileRT 쪽 병목 제거

기술 맥락

인사이트

댓글

댓글

관련 기사