샤오미 MiMo, 1조 파라미터 모델에서 초당 1000토큰 찍었다
샤오미 MiMo 팀과 TileRT가 1조 파라미터급 모델 MiMo-V2.5-Pro-UltraSpeed를 공개했고, 단일 8-GPU 범용 노드에서 초당 1000토큰 이상 디코딩 속도를 냈다고 밝힘. 핵심은 전용 하드웨어가 아니라 FP4 양자화, DFlash 투기적 디코딩, TileRT의 초저지연 실행 엔진을 모델-시스템 공동설계로 묶은 점임. API는 2026년 6월 9일부터 6월 23일까지 제한 신청제로 열리고, 가격은 기존 MiMo-V2.5-Pro의 3배지만 생성 속도는 약 10배라고 주장함.
- 1
1조 파라미터 모델에서 초당 1000토큰 이상 디코딩 속도를 달성했다고 발표함
- 2
전용 칩이 아니라 범용 GPU 8장짜리 단일 노드에서 모델-시스템 공동설계로 속도를 끌어올린 점이 핵심임
- 3
MoE Expert만 FP4로 선택 양자화하고 나머지 모듈은 원래 정밀도를 유지해 성능 저하를 줄였다고 설명함
- 4
DFlash 기반 블록 단위 투기적 디코딩으로 코딩 시나리오에서 평균 6.30토큰, 최대 7.14토큰을 한 번에 수락함
- 5
고속 API는 2026년 6월 9일부터 23일까지 제한 신청제로 제공되며 세션과 큐 사용량 제한이 있음
LLM 경쟁이 모델 크기와 벤치마크 점수에서 추론 지연 시간으로 확실히 넘어가고 있다는 신호임. 특히 전용 하드웨어 없이 범용 GPU에서 1T 모델 1000토큰/s를 주장했다는 점은, 에이전트와 코딩 도구를 만드는 팀들이 앞으로 모델 품질만큼 런타임 설계를 봐야 한다는 압박으로 이어질 수 있음.
관련 기사
AI는 지금 느려지고 있는데, 비용 구조는 절대 느려지면 안 되는 상태다
이 글은 생성형 AI 산업이 데이터센터, GPU, 클라우드 약정, 토큰 과금 위에 얼마나 무리한 성장 가정을 얹어놨는지 공격적으로 뜯어본다. 핵심은 단순한 버블론이 아니라, 오픈AI와 앤트로픽이 2030년까지 지금보다 훨씬 큰 매출을 만들지 못하면 현재 인프라 투자 자체가 설명되지 않는다는 주장이다.
애플, Siri를 앱 안에서 움직이는 개인형 AI 비서로 다시 밀어붙임
애플이 Apple Intelligence 기반의 새 Siri AI를 예고했다. 핵심은 단순 질의응답이 아니라 사용자의 앱, 화면, 사진, 메일, 메시지 맥락을 읽고 실제 행동까지 이어주는 개인형 AI 비서다. 영어 지원은 올해 말부터 순차적으로 들어오고, 일부 기능은 이미 제공 중이다.
xAI, 프런티어 AI 연구소보다 데이터센터 임대업자에 가까워지는 중
xAI가 Anthropic과 Google에 대규모 GPU 데이터센터 용량을 빌려주면서, Grok을 키우는 AI 연구소라기보다 데이터센터 임대 사업자처럼 보이기 시작했다는 분석이다. Anthropic은 피크 시간대 용량 부족을 겪다가 xAI의 멤피스 데이터센터를 쓰면서 제한을 완화했고, 계약 규모는 월 12억5천만 달러까지 올라간다. 핵심은 단순 회계 장난이 아니라, AI 업계 전체의 GPU 부족과 xAI의 빠른 데이터센터 구축 능력이 실제 경쟁력일 수 있다는 점이다.
정부, 2조800억 원 들여 GPU 9704장 확보한다
과기정통부가 2조800억 원 규모 첨단 GPU 확보·구축·운용 지원 사업자로 네이버클라우드, 삼성SDS, 엘리스그룹을 선정했다. 총 9704장의 최신 GPU를 확보해 독자 AI 파운데이션 모델, 국가 AI 프로젝트, 산학연 연구개발, 클라우드 GPU 서비스에 투입할 계획이다.
딥시크발 가격 전쟁, 중국 AI 클라우드 마진을 갈아버리는 중
딥시크 V4의 초저가 정책 이후 중국 AI 시장에서 API 가격 인하가 연쇄적으로 터지고 있다. 샤오미는 최대 99%, 텐센트 클라우드는 최대 97.5%까지 가격을 낮췄고, 오픈 웨이트 모델 확산이 추론 서비스의 차별점을 가격 경쟁으로 몰아가고 있다.
댓글
댓글
댓글을 불러오는 중...