본문으로 건너뛰기
피드

샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다

ai-ml 약 10분
vote
0
댓글
북마크

샤오미 MiMo 팀과 TileRT가 1조 파라미터급 모델 MiMo-V2.5-Pro-UltraSpeed를 공개했고, 단일 8-GPU 범용 노드에서 초당 1000토큰 이상 디코딩 속도를 냈다고 밝힘. 핵심은 전용 하드웨어가 아니라 FP4 양자화, DFlash 투기적 디코딩, TileRT의 초저지연 실행 엔진을 모델-시스템 공동설계로 묶은 점임. API는 2026년 6월 9일부터 6월 23일까지 제한 신청제로 열리고, 가격은 기존 MiMo-V2.5-Pro의 3배지만 생성 속도는 약 10배라고 주장함.

  • 1

    1조 파라미터 모델에서 초당 1000토큰 이상 디코딩 속도를 달성했다고 발표함

  • 2

    전용 칩이 아니라 범용 GPU 8장짜리 단일 노드에서 모델-시스템 공동설계로 속도를 끌어올린 점이 핵심임

  • 3

    MoE Expert만 FP4로 선택 양자화하고 나머지 모듈은 원래 정밀도를 유지해 성능 저하를 줄였다고 설명함

  • 4

    DFlash 기반 블록 단위 투기적 디코딩으로 코딩 시나리오에서 평균 6.30토큰, 최대 7.14토큰을 한 번에 수락함

  • 5

    고속 API는 2026년 6월 9일부터 23일까지 제한 신청제로 제공되며 세션과 큐 사용량 제한이 있음

  • 샤오미가 MiMo-V2.5-Pro-UltraSpeed를 공개하면서 꽤 센 숫자를 들고 나옴 — 1조 파라미터(1T) 모델에서 초당 1000토큰 이상 디코딩 속도

    • 협업 파트너는 초저지연 추론 시스템을 만드는 TileRT
    • 샤오미 주장으로는 1T급 모델에서 1000 tokens/s를 깬 첫 사례
    • 단순히 작은 모델을 빠르게 돌린 게 아니라, 1조 파라미터급 플래그십 모델을 대상으로 한 발표라서 눈길이 감
  • API도 같이 열리지만, 누구나 바로 쓰는 공개 서비스는 아님

    • 2026년 6월 9일부터 6월 23일 23:59 베이징 시간까지 제한 신청제로 운영
    • 가격은 MiMo-V2.5-Pro 대비 3배, 대신 생성 속도는 약 10배라고 홍보함
    • API 전용이고 토큰 플랜은 지원하지 않음
    • 승인된 사용자는 2주 동안 무료 Chat 접근도 받을 수 있음
    • 계정당 하루 큐 진입 10회, 세션당 30분 제한, 5분 이상 idle이면 세션 회수

중요

> 여기서 핵심은 “빠른 모델”이 아니라 “1조 파라미터 모델을 범용 GPU 8장짜리 단일 노드에서 초당 1000토큰 이상으로 뽑았다”는 주장임. 맞다면 LLM 에이전트 UX의 병목이 꽤 달라질 수 있음.

  • 샤오미가 속도를 이렇게 강조하는 이유는 명확함 — 에이전트는 답이 맞는 것만큼 빨리 반복하는 것도 중요하기 때문

    • 어려운 문제를 한 번 던지고 기다리는 방식이 아니라, 같은 시간 안에 여러 추론 경로를 돌리는 Best-of-N이나 Tree Search가 가능해짐
    • 모델이 여러 후보를 빠르게 만들고, 검증하고, 자기수정하는 루프를 돌릴 수 있으면 체감 지능 자체가 올라갈 수 있다는 논리
    • 코딩 에이전트도 마찬가지로, 개발자가 화면 앞에서 토큰이 찍히는 걸 기다리는 시간이 줄어듦
  • 샤오미는 실시간 의사결정 루프까지 노리고 있음

    • 예시로 고빈도 퀀트 트레이딩 신호 생성, 실시간 사기 탐지, 지능형 입찰, 실시간 대화형 인터페이스를 언급함
    • 의료 영상 분석과 수술 보조처럼 지연 시간이 생명과 연결되는 영역도 예시로 듦
    • 다만 이런 적용 사례들은 실제 배포 검증이라기보다는 “이 속도면 이런 세계가 열린다”에 가까운 포지셔닝으로 읽는 게 맞음

어떻게 1000토큰/s를 만들었나

  • 샤오미가 강조하는 포인트는 전용 하드웨어가 아니라 모델-시스템 공동설계임

    • 업계의 초고속 추론 접근은 Cerebras의 웨이퍼 스케일 통합이나 Groq의 온칩 SRAM 커스텀 아키텍처처럼 특수 하드웨어에 기대는 경우가 많음
    • MiMo와 TileRT는 범용 GPU 위에서 모델 구조, 양자화, 디코딩 알고리즘, 런타임 커널을 같이 맞추는 길을 택했다고 설명함
    • 결과적으로 단일 표준 8-GPU 범용 노드에서 1000+ tokens/s 출력을 달성했다는 주장
  • 첫 번째 축은 FP4 양자화임 — 1T 모델에서는 메모리 대역폭이 곧 속도 병목이 됨

    • 1조 파라미터 규모에서는 FP8, INT8, 16비트 추론도 메모리 footprint와 대역폭 압박이 큼
    • 그래서 샤오미는 MXFP4 형식의 FP4 양자화를 사용했다고 밝힘
    • 하지만 전체 모델을 무작정 FP4로 낮추면 복잡한 추론, 논리, 코드 생성에서 품질이 떨어질 수 있음
  • 그래서 모든 모듈을 FP4로 밀어버린 게 아니라, MoE Expert만 선택적으로 양자화함

    • MiMo-V2.5-Pro는 MoE 구조라서 Expert가 파라미터의 대부분을 차지함
    • 샤오미는 Expert가 양자화에 상대적으로 더 잘 버틴다고 보고, 이 부분만 FP4로 낮춤
    • 나머지 모듈은 원래 정밀도를 유지해 전체 능력 저하를 줄였다고 설명함
    • 여기에 FP4 QAT, 즉 양자화 인지 학습을 적용해 원본 모델과 거의 비슷한 성능을 유지했다고 주장함
  • 두 번째 축은 DFlash 기반 투기적 디코딩임

    • 전통적인 투기적 디코딩은 작은 draft 모델이 다음 토큰을 미리 추측하고, 큰 모델이 그 후보를 검증하는 방식
    • 잘 맞으면 큰 모델이 한 번에 여러 토큰을 확정할 수 있어서, 원래의 “forward pass 한 번에 토큰 하나” 병목을 줄임
    • 문제는 draft 모델이 약하면 수락률이 낮고, draft 모델을 강하게 만들면 그 자체가 비용이 커지는 딜레마가 있음
  • DFlash는 이 draft 단계의 직렬성을 더 줄이려는 접근임

    • 마스크된 위치 블록 전체를 한 번의 forward pass로 병렬 예측하는 방식
    • 샤오미는 이를 1T급 MoE와 long-context 시나리오에 맞게 커스텀 최적화했다고 밝힘
    • Muon 2차 옵티마이저와 모델 자기증류(self-distillation)를 써서 작은 mask block에서도 높은 수락률을 노렸다고 설명함

중요

> 코딩 시나리오에서 평균 acceptance length가 6.30, 일부 샘플은 최대 7.14까지 나왔다고 함. 블록 크기가 8이니, 검증 한 번에 6~7개 토큰이 통과되는 셈이라 실제 처리량에 꽤 직접적으로 먹히는 숫자임.

  • 다만 모든 시나리오에서 똑같이 잘 되는 건 아님
    • 코딩 같은 고가치 에이전트 시나리오에서는 수락 길이가 크게 개선됐다고 밝힘
    • 반대로 의미가 더 갈라지고 불확실성이 큰 일반 대화에서는 현재 수락률이 아직 높지 않다고 인정함
    • 즉 “코딩 에이전트에는 강한데, 범용 챗봇에서도 같은 속도 체감이 날지는 더 봐야 함” 정도로 읽히는 대목

TileRT 쪽 병목 제거

  • 1000 tokens/s 수준에서는 연산자 하나하나의 경계가 병목이 됨

    • 일반 추론 시스템에서는 operator launch, 하드웨어 동기화, 글로벌 메모리 왕복이 계속 발생함
    • 보통은 작은 오버헤드로 보이지만, 토큰 생성 주기가 마이크로초 단위로 내려가면 이 빈틈이 눈에 띄는 execution gap이 됨
    • TileRT는 이 연산자 경계에서 생기는 실행 공백을 줄이는 새 실행 모델을 도입했다고 설명함
  • TileRT는 MiMo의 알고리즘 특성에 맞춰 컴파일 엔진과 커널을 따로 맞춤

    • MoE Expert FP4 양자화에 맞는 compute kernel
    • DFlash 투기적 디코딩 파이프라인에 맞는 실행 경로
    • persistent kernel, tile pipeline, 이기종 협업 같은 시스템 최적화를 언급함
    • 기사 표현대로면 모델 팀과 시스템 팀이 레이어 경계를 깨고 같이 설계한 케이스임
  • 개발자 입장에서 중요한 건 “모델 API가 빨라졌다”보다 “추론 스택 전체가 제품 경쟁력이 됐다”는 쪽임

    • LLM 앱이 느리면 모델이 똑똑해도 에이전트 UX가 끊김
    • 반대로 초고속 디코딩이 가능하면 코드 생성, 자동 리뷰, 대량 후보 생성, 실시간 의사결정 같은 사용성이 확 달라짐
    • 특히 한국 개발팀이 자체 모델을 만들지 않더라도, 어떤 API와 런타임을 고를지 판단할 때 latency와 throughput을 더 세게 봐야 하는 흐름임

기술 맥락

  • 이번 발표의 기술적 선택은 “1조 파라미터 모델을 그대로 빠르게 돌리자”가 아니라, 병목이 큰 부분만 정밀하게 줄이는 쪽이에요. 전체 모델을 FP4로 낮추면 품질이 흔들릴 수 있으니, 파라미터 대부분을 차지하면서도 양자화 내성이 높은 MoE Expert만 골라서 줄인 거예요.

  • DFlash가 중요한 이유는 LLM 생성이 원래 토큰을 하나씩 이어 붙이는 구조라서, 아무리 GPU가 빨라도 직렬 병목이 남거든요. draft 모델이 블록 단위로 여러 후보를 만들고 큰 모델이 한 번에 검증하면, 수락률이 높을 때 실제 사용자 입장에서는 답변이 훨씬 빨리 쏟아져요.

  • TileRT 쪽 최적화는 “커널 몇 개 빠르게 만들었다”보다 더 아래 레벨의 이야기예요. 초당 1000토큰을 노리면 연산자 실행 사이의 작은 대기, 동기화, 메모리 왕복도 다 보이기 때문에, 런타임 실행 모델 자체를 모델 구조에 맞춰야 해요.

  • 그래서 이 발표는 모델 연구만의 성과라기보다, 모델 구조와 추론 시스템을 같이 설계한 사례로 보는 게 맞아요. 앞으로 코딩 에이전트나 실시간 LLM 제품을 만드는 팀은 모델 점수표만 볼 게 아니라, 양자화 방식, speculative decoding 수락률, 런타임 커널 최적화까지 같이 봐야 해요.

LLM 경쟁이 모델 크기와 벤치마크 점수에서 추론 지연 시간으로 확실히 넘어가고 있다는 신호임. 특히 전용 하드웨어 없이 범용 GPU에서 1T 모델 1000토큰/s를 주장했다는 점은, 에이전트와 코딩 도구를 만드는 팀들이 앞으로 모델 품질만큼 런타임 설계를 봐야 한다는 압박으로 이어질 수 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI는 지금 느려지고 있는데, 비용 구조는 절대 느려지면 안 되는 상태다

이 글은 생성형 AI 산업이 데이터센터, GPU, 클라우드 약정, 토큰 과금 위에 얼마나 무리한 성장 가정을 얹어놨는지 공격적으로 뜯어본다. 핵심은 단순한 버블론이 아니라, 오픈AI와 앤트로픽이 2030년까지 지금보다 훨씬 큰 매출을 만들지 못하면 현재 인프라 투자 자체가 설명되지 않는다는 주장이다.

ai-ml

애플, Siri를 앱 안에서 움직이는 개인형 AI 비서로 다시 밀어붙임

애플이 Apple Intelligence 기반의 새 Siri AI를 예고했다. 핵심은 단순 질의응답이 아니라 사용자의 앱, 화면, 사진, 메일, 메시지 맥락을 읽고 실제 행동까지 이어주는 개인형 AI 비서다. 영어 지원은 올해 말부터 순차적으로 들어오고, 일부 기능은 이미 제공 중이다.

ai-ml

xAI, 프런티어 AI 연구소보다 데이터센터 임대업자에 가까워지는 중

xAI가 Anthropic과 Google에 대규모 GPU 데이터센터 용량을 빌려주면서, Grok을 키우는 AI 연구소라기보다 데이터센터 임대 사업자처럼 보이기 시작했다는 분석이다. Anthropic은 피크 시간대 용량 부족을 겪다가 xAI의 멤피스 데이터센터를 쓰면서 제한을 완화했고, 계약 규모는 월 12억5천만 달러까지 올라간다. 핵심은 단순 회계 장난이 아니라, AI 업계 전체의 GPU 부족과 xAI의 빠른 데이터센터 구축 능력이 실제 경쟁력일 수 있다는 점이다.

ai-ml

정부, 2조800억 원 들여 GPU 9704장 확보한다

과기정통부가 2조800억 원 규모 첨단 GPU 확보·구축·운용 지원 사업자로 네이버클라우드, 삼성SDS, 엘리스그룹을 선정했다. 총 9704장의 최신 GPU를 확보해 독자 AI 파운데이션 모델, 국가 AI 프로젝트, 산학연 연구개발, 클라우드 GPU 서비스에 투입할 계획이다.

ai-ml

딥시크발 가격 전쟁, 중국 AI 클라우드 마진을 갈아버리는 중

딥시크 V4의 초저가 정책 이후 중국 AI 시장에서 API 가격 인하가 연쇄적으로 터지고 있다. 샤오미는 최대 99%, 텐센트 클라우드는 최대 97.5%까지 가격을 낮췄고, 오픈 웨이트 모델 확산이 추론 서비스의 차별점을 가격 경쟁으로 몰아가고 있다.