본문으로 건너뛰기
피드

구글, 젬마4 추론 속도 최대 3배 끌어올리는 MTP 드래프터 공개

ai-ml 약 7분
vote
0
댓글
북마크

구글이 오픈 모델 Gemma 4 제품군용 다중 토큰 예측(MTP) 드래프터를 공개했다. 무거운 본 모델이 최종 검증을 맡고, 가벼운 드래프터가 여러 토큰을 미리 제안하는 speculative decoding 구조로 품질 저하 없이 최대 3배 빠른 추론을 노린다.

  • 1

    Gemma 4는 공개 몇 주 만에 6천만 다운로드를 넘겼고, 이번에는 추론 효율 개선이 초점임

  • 2

    MTP 드래프터는 speculative decoding으로 여러 미래 토큰을 미리 제안하고 본 모델이 병렬 검증함

  • 3

    구글은 출력 품질이나 reasoning logic 저하 없이 최대 3배 속도 향상을 주장함

  • 4

    26B MoE 모델은 Apple Silicon에서 배치 크기 4-8일 때 로컬 최대 약 2.2배 속도 향상을 보였음

  • 5

    모델 가중치는 Apache 2.0 라이선스로 Hugging Face, Kaggle에서 받을 수 있고 transformers, MLX, vLLM, SGLang, Ollama 등을 지원함

  • 구글이 Gemma 4 제품군용 다중 토큰 예측(MTP) 드래프터를 공개함

    • Gemma 4는 공개 몇 주 만에 다운로드 6천만 회를 넘겼다고 함
    • 이번 업데이트의 핵심은 모델 자체를 바꾸는 게 아니라, 추론 시 토큰을 뽑는 방식을 더 빠르게 만드는 것임
    • 구글 주장으로는 출력 품질이나 추론 로직 저하 없이 최대 3배 속도 향상이 가능함
  • 병목은 LLM 추론이 기본적으로 메모리 대역폭에 묶인다는 데 있음

    • 일반적인 대규모 언어 모델(LLM)은 다음 토큰 하나를 만들 때마다 수십억 개 파라미터를 VRAM에서 연산 장치로 옮겨야 함
    • 이 과정에서 연산 유닛은 놀고 있는데 메모리 이동이 느려서 전체 지연 시간이 늘어나는 상황이 생김
    • 특히 소비자용 GPU, 개인 워크스테이션, 모바일 기기에서는 이 병목이 더 잘 드러남
  • MTP 드래프터는 speculative decoding을 Gemma 4에 맞춰 붙인 구조임

    • 무거운 타깃 모델, 예를 들면 Gemma 4 31B가 최종 판단을 맡음
    • 가벼운 MTP 모델은 앞으로 나올 토큰 여러 개를 미리 초안처럼 제안함
    • 타깃 모델은 이 후보 토큰들을 병렬로 검증하고, 맞으면 한 번의 forward pass에서 후보 전체와 추가 토큰 하나까지 받아들일 수 있음

중요

> 포인트는 “작은 모델로 대충 빠르게”가 아님. 최종 검증은 원래 Gemma 4 본 모델이 하므로, 구글은 reasoning과 정확도는 유지하면서 속도만 당긴다고 설명함.

sequenceDiagram
    participant 앱 as 애플리케이션
    participant 드래프터 as MTP 드래프터
    participant 본모델 as Gemma 4 본 모델
    participant 출력 as 사용자 출력
    앱->>드래프터: 현재 문맥 전달
    드래프터->>드래프터: 여러 후보 토큰 예측
    드래프터->>본모델: 후보 시퀀스 제안
    본모델->>본모델: 후보 토큰 병렬 검증
    본모델-->>출력: 승인된 토큰과 추가 토큰 반환
    출력-->>앱: 더 빠른 응답 스트리밍
  • 개발자 입장에서 제일 체감되는 건 latency임

    • 실시간 채팅, 음성 앱, 에이전트 워크플로에서는 몇백 ms 차이도 UX가 확 달라짐
    • 코딩 어시스턴트나 autonomous agent처럼 여러 단계 계획을 빠르게 돌려야 하는 경우에도 토큰 생성 속도가 병목이 됨
    • 온디바이스 앱에서는 더 빠른 생성이 배터리 절약으로도 이어질 수 있음
  • 구글이 강조한 적용 범위도 꽤 넓음

    • 개인 PC와 소비자용 GPU에서 26B MoE, 31B Dense 모델을 더 빠르게 돌리는 로컬 개발 시나리오
    • E2B, E4B edge 모델을 모바일이나 엣지 기기에서 더 효율적으로 쓰는 시나리오
    • 클라우드뿐 아니라 워크스테이션, 모바일, 온디바이스까지 같이 겨냥함
  • 내부 구조도 그냥 작은 모델 하나 붙인 수준은 아님

    • 드래프트 모델이 타깃 모델의 activations를 활용함
    • KV cache도 공유해서 큰 모델이 이미 처리한 문맥을 다시 계산하지 않음
    • E2B와 E4B edge 모델에서는 마지막 logit 계산이 병목이라, embedder에 효율적인 clustering 기법도 넣었다고 함
  • 하드웨어별 최적화 얘기도 있음

    • 26B mixture-of-experts 모델은 Apple Silicon에서 배치 크기 1일 때 라우팅 때문에 까다로운 문제가 있음
    • 하지만 여러 요청을 동시에 처리해 배치 크기 4-8로 올리면 로컬에서 최대 약 2.2배 속도 향상이 나온다고 함
    • Nvidia A100에서도 배치 크기를 키울 때 비슷한 이득을 봤다고 함
  • 배포 경로는 개발자 친화적으로 꽤 넓게 열어둠

    • MTP 드래프터는 Gemma 4와 같은 Apache 2.0 오픈소스 라이선스로 제공됨
    • 모델 가중치는 Hugging Face와 Kaggle에서 받을 수 있음
    • transformers, MLX, vLLM, SGLang, Ollama에서 실험할 수 있고, Android와 iOS의 Google AI Edge Gallery에서도 바로 써볼 수 있음

기술 맥락

  • 일반 LLM 추론은 토큰을 하나씩 만드는 구조라서 느려요. 특히 큰 모델은 매 토큰마다 파라미터를 메모리에서 계속 읽어야 해서, GPU 연산 성능보다 VRAM 대역폭이 먼저 병목이 되는 경우가 많거든요.

  • Speculative Decoding은 이 병목을 “예측”과 “검증”으로 나눠서 풀어요. 작은 드래프터가 여러 토큰을 미리 써보고, 큰 본 모델은 그 후보가 자기 출력과 맞는지 한 번에 확인하는 식이에요.

  • Gemma 4의 MTP 드래프터가 중요한 이유는 품질 책임을 본 모델에 남겨둔다는 점이에요. 사용자는 더 작은 모델의 답을 받는 게 아니라, 같은 Gemma 4가 승인한 토큰을 더 빨리 받는 구조라서 품질 저하 논란을 줄일 수 있어요.

  • KV cache 공유도 꽤 실전적인 포인트예요. 드래프터가 문맥을 처음부터 다시 계산하면 속도 이득이 줄어드는데, 타깃 모델이 이미 들고 있는 캐시를 같이 쓰면 중복 계산을 줄일 수 있거든요.

  • 로컬 LLM 개발자에게는 배치 크기 이야기도 중요해요. Apple Silicon에서 26B MoE가 배치 1에서는 라우팅 문제로 까다롭지만, 배치 4-8에서는 최대 약 2.2배가 나온다는 건 단일 채팅보다 여러 요청을 묶는 서버형 로컬 워크로드에 더 잘 맞는다는 뜻이에요.

LLM 추론 최적화가 이제 ‘더 작은 모델로 바꾸자’가 아니라 ‘같은 모델의 검증력을 유지하면서 토큰 생성 파이프라인을 바꾸자’로 가는 흐름이 선명함. 로컬 코딩 에이전트나 온디바이스 앱 만드는 개발자한테는 꽤 실전적인 업데이트임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

건설업계도 피지컬 AI 실험 중, 관건은 로봇보다 현장 데이터다

국내 건설사들이 인공지능(AI)과 로보틱스를 건설 현장에 적용하려는 실험을 늘리고 있다. GS건설은 로봇을 활용한 자재 운반·반복 작업 자동화를 검토하고, 현대건설은 AI 카메라 기반 안전 기술을 도입하려는 중이다. 다만 실제 안착까지는 사람과 AI의 협업 방식, 현장 작업자의 데이터 활용 체계 같은 숙제가 남아 있다.

ai-ml

AI 모델 접속도 수출통제 대상이 되면 벌어지는 일

앤트로픽이 미국 정부 수출통제 지침에 따라 최신 AI 모델 접근을 출시 사흘 만에 차단했다는 사례를 통해, 클라우드 AI 모델 접근권이 국가 안보와 산업정책에 종속될 수 있다는 문제가 드러났다. 데이터 주권만으로는 부족하고, 모델 능력과 연산 접근권까지 포함한 소버린 AI 전략이 필요하다는 논점이다.

ai-ml

건설 현장에 AI 로봇이 들어오려면 아직 데이터와 협업 방식이 숙제

GS건설, 현대건설, 삼성물산 등 국내 건설사가 AI와 로봇 기술을 현장 자동화와 안전관리, 단지 서비스에 적용하려는 움직임을 보이고 있다. 다만 사람과 로봇이 함께 일하는 방식, 실증 사례 축적, 현장 작업자의 데이터 활용 체계가 갖춰져야 실제 확산이 가능하다는 지적이 나온다.

ai-ml

라벨링 1천 장을 100장으로 줄인다는 슈퍼브에이아이의 비전 AI 플랫폼

슈퍼브에이아이가 2026 스마트테크 코리아에서 데이터 구축부터 모델 개발, 운영까지 묶은 슈퍼브 플랫폼을 공개했다. 비전 파운데이션 모델로 라벨링 부담을 줄이고, 대규모 언어 모델과 비디오 언어 모델을 결합해 텍스트 명령만으로 CCTV 속 위험 상황을 찾는 기능까지 제시했다.

ai-ml

프롬프트만으로 게임 만드는 시대, 진짜 어디까지 왔나

AI가 이미지·영상·코드 생성을 넘어, 탐험 가능한 3D 세계와 게임 프로토타입까지 만들기 시작했다. 구글 딥마인드의 프로젝트 지니부터 오버데어, 버스에잇, 바르코까지 사례는 늘고 있지만, 물리 오류·레이턴시·최적화·조작감 같은 완성도 문제는 아직 사람 몫으로 남아 있다.