---
title: "구글, 텍스트를 한 토큰씩 안 쓰는 오픈소스 모델 디퓨전젬마 공개"
published: 2026-06-11T21:05:03.651Z
canonical: https://jeff.news/article/4062
---
# 구글, 텍스트를 한 토큰씩 안 쓰는 오픈소스 모델 디퓨전젬마 공개

구글이 자동회귀 방식 대신 확산 방식으로 텍스트를 생성하는 오픈소스 모델 디퓨전젬마를 공개했다. 256토큰 블록을 동시에 디노이징해 같은 크기의 젬마 자동회귀 모델보다 최대 4배 빠른 추론 속도를 냈다는 설명이다. 아직 20억 파라미터 규모의 실험적 공개지만, 추론 비용과 지연시간을 줄이려는 흐름에서 꽤 중요한 실험이다.

- 구글이 텍스트 생성 방식을 아예 다르게 보는 오픈소스 모델 디퓨전젬마를 공개함
  - 기존 대형 언어 모델처럼 단어를 하나씩 순서대로 찍어내는 방식이 아님
  - 256토큰 블록을 한 번에 놓고, 확산 모델처럼 반복적으로 다듬어 텍스트를 만드는 구조임
  - 구글 딥마인드는 같은 크기의 젬마 자동회귀 모델보다 최대 4배 빠른 추론 속도를 기록했다고 밝힘

- 지금 대부분의 대규모 언어 모델은 자동회귀 방식을 씀
  - 챗지피티, 라마, 클로드 모두 이전 토큰을 보고 다음 토큰을 예측하는 방식임
  - 이 구조는 응답이 길어질수록 생성 시간이 선형으로 늘어나는 문제가 있음
  - 한 토큰이 나와야 다음 토큰을 만들 수 있으니, 병렬 처리에도 한계가 생김

- 디퓨전젬마는 이미지 생성 AI에서 익숙한 확산 방식을 텍스트에 가져옴
  - 확산 모델은 랜덤 노이즈에서 시작해 여러 번 노이즈를 제거하면서 최종 결과를 만듦
  - 디퓨전젬마는 이 원리를 텍스트에 적용해서 256토큰 블록 전체를 동시에 디노이징함
  - 블록 안의 토큰들이 병렬로 생성되기 때문에 긴 텍스트에서 속도 차이가 더 크게 벌어질 수 있음

> [!IMPORTANT]
> 핵심 수치는 최대 4배 빠른 추론 속도임. AI 서비스에서 모델 비용만큼 치명적인 게 응답 지연인데, 생성 아키텍처를 바꿔 이 병목을 건드린 실험이라는 점이 중요함.

- 젬마4와 비교하면 방향이 완전히 다름
  - 젬마4는 멀티모달 지원과 128K 컨텍스트 윈도우 같은 성능 업그레이드에 초점을 둔 모델임
  - 반면 디퓨전젬마는 텍스트 전용이고, 생성 방식 자체를 바꾸는 연구 공개에 가까움
  - 현재 공개된 버전은 20억 파라미터 규모이며 구글도 “실험적” 공개로 분류함
  - 실제 서비스 배포용 완성품이라기보다, 새로운 생성 패러다임이 어디까지 갈 수 있는지 보는 단계임

- 오픈소스 대규모 언어 모델 경쟁 속에서도 꽤 튀는 접근임
  - 메타 라마, 딥시크, 큐원, 미스트랄, GLM 계열은 대부분 자동회귀 방식을 유지하면서 효율과 추론 능력을 끌어올리는 쪽임
  - 텍스트 확산 모델은 학계에서 MDLM, SEDD 같은 연구로 논의됐지만 대규모 실용화 사례는 많지 않았음
  - 구글이 젬마 계열로 공개했다는 건, 이 방향을 커뮤니티와 같이 검증해보겠다는 신호로 볼 수 있음

- 장점만 있는 건 아님
  - 확산 방식은 토큰 간 양방향 맥락을 활용할 수 있어 이론적으로 더 일관된 장문 생성이 가능함
  - 하지만 지시 이행이나 정확한 수식 처리에서는 자동회귀 모델보다 약하다는 평가도 있음
  - 즉 “빠르다”와 “항상 더 좋다”는 다른 얘기임

- 라이선스와 공개 방식은 개발자 입장에서 꽤 좋음
  - 아파치 2.0 라이선스로 공개돼 상업적 활용도 허용됨
  - 모델 가중치와 코드는 허깅페이스를 통해 공개됨
  - 다만 현재는 2B 단일 버전만 있고, 멀티모달 기능이나 대규모 버전은 없음

- 이 뉴스가 중요한 이유는 추론 비용 전쟁과 바로 연결되기 때문임
  - AI 산업 전체가 모델 호출 비용과 지연시간을 줄이려고 난리인 상황임
  - 더 작은 모델, 더 싼 모델, 모델 라우팅도 방법이지만 생성 방식 자체를 바꾸는 것도 해법이 될 수 있음
  - 디퓨전젬마가 당장 주류가 되진 않더라도, “언어 모델은 꼭 한 토큰씩 써야 하나?”라는 질문을 다시 던진 셈임

---

## 기술 맥락

- 자동회귀 모델은 구조가 단순하고 강력하지만, 다음 토큰을 만들려면 이전 토큰이 먼저 나와야 해요. 그래서 긴 답변에서는 아무리 좋은 GPU를 써도 순차 처리 병목이 남아요. 디퓨전젬마는 이 병목을 줄이려고 256토큰 단위로 묶어 병렬 생성하는 쪽을 택한 거예요.

- 확산 방식이 텍스트에서 어려운 이유는 이미지와 달리 단어 순서와 문법이 아주 민감하기 때문이에요. 이미지 픽셀은 조금 흐트러져도 자연스러울 수 있지만, 텍스트는 토큰 하나가 틀리면 의미가 확 바뀌거든요. 그래서 빠른 생성과 정확한 지시 이행 사이의 균형이 핵심이에요.

- 구글이 이걸 실험적 오픈소스로 낸 것도 의미가 있어요. 내부 논문이나 데모로만 끝내지 않고 가중치와 코드를 공개하면, 커뮤니티가 실제 워크로드에서 어디가 깨지는지 빠르게 찾아낼 수 있거든요. 특히 추론 비용에 민감한 서비스팀은 이런 실험을 눈여겨볼 만해요.

- 당장 운영 서비스에 넣는다면 조심해야 해요. 속도가 빠르더라도 수식, 코드, 지시 이행처럼 정확도가 중요한 영역에서는 자동회귀 모델이 더 안정적일 수 있어요. 대신 대량 초안 생성, 요약 후보 생성, 낮은 지연시간이 중요한 보조 작업부터 검증해볼 만해요.

## 핵심 포인트

- 디퓨전젬마는 다음 토큰을 하나씩 예측하는 자동회귀 방식이 아니라 256토큰 블록을 병렬로 생성하는 확산 방식을 쓴다
- 구글 딥마인드에 따르면 같은 크기의 젬마 자동회귀 모델보다 최대 4배 빠른 처리 속도를 기록했다
- 현재 공개된 모델은 20억 파라미터 규모이며 텍스트 전용 실험 모델로 분류된다
- 아파치 2.0 라이선스로 공개돼 상업적 활용도 가능하고, 가중치와 코드는 허깅페이스에서 제공된다
- 확산 방식은 장문 일관성 가능성이 있지만 지시 이행이나 정확한 수식 처리에서는 아직 자동회귀 모델 대비 약점이 있다는 평가도 있다

## 인사이트

언어 모델 성능 경쟁이 ‘더 큰 모델’만이 아니라 ‘생성 방식 자체를 바꾸는 싸움’으로 가고 있다. 당장 운영 서비스에 꽂을 모델이라기보다는, 추론 지연과 비용을 줄이려는 팀이 다음 세대 아키텍처를 살펴볼 만한 신호다.