구글, 토큰을 한 글자씩 찍지 않는 오픈소스 모델 ‘디퓨전젬마’ 공개

ai-ml 2026-06-11 약 6분

 tags

#llm #diffusion #gemma #moe #vllm

vote

북마크

구글이 자기회귀 방식 대신 확산 기반으로 텍스트를 생성하는 오픈소스 모델 ‘디퓨전젬마’를 공개했다. 한 번에 256개 토큰 블록을 만들고 반복 정제하는 방식이라 H100에서 초당 1000토큰 이상, RTX 5090에서도 초당 700토큰 이상을 낸다는 점이 핵심이다. 다만 품질은 아직 젬마4보다 낮아 연구용·실험용 성격이 강하다.

1
디퓨전젬마는 기존 대규모 언어 모델처럼 토큰을 순차 생성하지 않고 256개 토큰 블록을 동시에 생성함
2
260억 파라미터 규모의 전문가혼합 구조지만 추론 시 약 38억 파라미터만 활성화됨
3
H100에서 초당 1000토큰 이상, RTX 5090에서 초당 700토큰 이상 생성 가능하다고 공개됨
4
양자화 적용 시 약 18GB 브이램으로 구동 가능해 고성능 소비자용 그래픽카드도 겨냥함
5
출력 품질은 아직 젬마4가 우위라 상용 고품질 응답보다는 로컬 AI·실시간 편집·연구 실험에 적합함

구글이 텍스트 생성 방식을 아예 다르게 가져가는 오픈소스 모델 ‘디퓨전젬마’를 공개함
- 기존 대규모 언어 모델은 보통 자기회귀 방식이라 토큰을 왼쪽에서 오른쪽으로 하나씩 만듦
- 디퓨전젬마는 확산 방식으로 한 번에 256개 토큰짜리 텍스트 블록을 만들고, 여러 번 반복하면서 문단 전체를 정제함
- 구글은 기존 방식을 ‘타자기’, 디퓨전젬마를 ‘대형 인쇄기’에 비유함. 비유가 좀 세긴 한데 방향은 명확함
핵심 숫자는 속도임. 구글 기준으로 같은 하드웨어에서 기존 자기회귀 모델보다 최대 4배 빠름
- 엔비디아 H100에서는 초당 1000토큰 이상 생성 가능
- 지포스 RTX 5090에서도 초당 700토큰 이상을 낸다고 밝힘
- 병목을 메모리 대역폭 중심에서 연산 중심으로 옮겨, 그래픽카드가 기다리는 시간을 줄였다는 설명임

❗중요

> 디퓨전젬마의 포인트는 “더 큰 모델”이 아니라 “토큰을 꼭 순서대로 만들어야 하냐”는 질문임. 로컬 AI나 실시간 편집 도구에서는 이 차이가 체감 속도로 바로 튀어나올 수 있음.

모델 구조도 로컬 실행을 꽤 의식하고 설계됨
- 전체 규모는 260억 파라미터지만 전문가혼합 구조라 실제 추론 때는 약 38억 파라미터만 활성화됨
- 양자화를 적용하면 약 18GB 브이램으로도 돌릴 수 있다고 함
- RTX 4090, RTX 5090 같은 고성능 소비자용 그래픽카드를 가진 개발자라면 실험 대상에 들어오는 수준임
디퓨전젬마가 특히 흥미로운 지점은 양방향 주의집중을 쓴다는 점임
- 자기회귀 모델은 현재 토큰을 만들 때 과거 토큰만 참고하는 구조임
- 디퓨전젬마는 한 번에 생성되는 256개 토큰이 서로를 모두 참고할 수 있음
- 그래서 문서 중간 수정, 코드 인필링, 마크다운 구조 생성처럼 앞뒤 문맥을 동시에 맞춰야 하는 작업에 잘 맞을 수 있음
구글은 스도쿠 사례로 차이를 보여줌
- 스도쿠는 각 칸의 답이 다른 칸과 강하게 연결돼 있어서 순서대로 답을 쓰는 모델에게 불리함
- 언슬로스가 디퓨전젬마를 스도쿠 전용으로 파인튜닝했는데, 전체 퍼즐을 동시에 고려하는 구조가 문제 특성과 잘 맞았다는 설명임
- 이게 최적화 문제, 과학 계산, 구조화 데이터 생성 쪽으로 이어질 수 있다는 게 구글의 기대임
그렇다고 당장 젬마4를 대체하는 모델은 아님
- 구글도 출력 품질은 아직 젬마4가 더 낫다고 선을 그음
- 최고 품질 응답이 필요한 상용 서비스라면 젬마4를 쓰는 게 낫다는 입장임
- 디퓨전젬마는 연구자와 개발자가 로컬 AI, 실시간 편집, 고속 반복 작업, 비선형 텍스트 생성을 실험해보는 플랫폼에 가까움
생태계 연동은 꽤 공격적으로 깔아둠
- 허깅페이스를 통해 모델 가중치를 공개했고, 개발자 가이드와 시각적 가이드도 제공함
- MLX, vLLM, 허깅페이스 트랜스포머, 엔비디아 니모, 언슬로스, 해커블 디퓨전과 연동됨
- 레드햇은 vLLM 통합을 지원하고, 엔비디아는 H100과 블랙웰 최적화를 맡았음
- 엔비디아의 4비트 부동소수점 포맷 NVFP4를 활용해 정확도 손실을 줄이면서 처리량을 높였다고 함

기술 맥락

디퓨전젬마의 선택은 “언어 모델은 반드시 다음 토큰 예측이어야 하나”에서 출발해요. 자기회귀 방식은 품질이 강하지만 순차성이 너무 강해서, 로컬 실행처럼 요청이 하나씩 들어오는 환경에서는 그래픽카드가 놀게 되는 시간이 생기거든요.
확산 방식은 한 블록을 먼저 만들고 여러 번 고치는 구조라서 병렬 연산을 더 많이 태울 수 있어요. 그래서 H100이나 RTX 5090 같은 그래픽카드에서 초당 토큰 수가 크게 올라가는 건데, 대신 반복 정제 과정에서 품질을 얼마나 안정적으로 끌어올리느냐가 숙제로 남아요.
전문가혼합 구조도 같은 맥락이에요. 전체 모델은 260억 파라미터지만 매번 약 38억 파라미터만 쓰면, 모델 용량은 확보하면서 실제 추론 비용은 줄일 수 있어요. 로컬 AI를 노린다면 이 절충이 꽤 중요해요.
양방향 주의집중은 문서 편집이나 코드 인필링에서 의미가 커요. 앞부분만 보고 다음을 쓰는 게 아니라 앞뒤 문맥을 동시에 보고 빈칸을 채울 수 있으니, “문장 중간을 자연스럽게 바꾸는” 작업에는 구조적으로 더 잘 맞는 편이에요.

모델 크기 경쟁만 보던 흐름에서 ‘생성 방식을 바꾸면 뭐가 달라지나’로 초점이 옮겨가는 신호다. 로컬 AI나 코딩 도구처럼 지연 시간이 체감 품질을 좌우하는 영역에서는 꽤 볼 만한 실험임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

구글, 토큰을 한 글자씩 찍지 않는 오픈소스 모델 ‘디퓨전젬마’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

구글, 토큰을 한 글자씩 찍지 않는 오픈소스 모델 ‘디퓨전젬마’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사