본문으로 건너뛰기
피드

구글, 토큰을 한 글자씩 찍지 않는 오픈소스 모델 ‘디퓨전젬마’ 공개

ai-ml 약 6분
vote
0
댓글
북마크

구글이 자기회귀 방식 대신 확산 기반으로 텍스트를 생성하는 오픈소스 모델 ‘디퓨전젬마’를 공개했다. 한 번에 256개 토큰 블록을 만들고 반복 정제하는 방식이라 H100에서 초당 1000토큰 이상, RTX 5090에서도 초당 700토큰 이상을 낸다는 점이 핵심이다. 다만 품질은 아직 젬마4보다 낮아 연구용·실험용 성격이 강하다.

  • 1

    디퓨전젬마는 기존 대규모 언어 모델처럼 토큰을 순차 생성하지 않고 256개 토큰 블록을 동시에 생성함

  • 2

    260억 파라미터 규모의 전문가혼합 구조지만 추론 시 약 38억 파라미터만 활성화됨

  • 3

    H100에서 초당 1000토큰 이상, RTX 5090에서 초당 700토큰 이상 생성 가능하다고 공개됨

  • 4

    양자화 적용 시 약 18GB 브이램으로 구동 가능해 고성능 소비자용 그래픽카드도 겨냥함

  • 5

    출력 품질은 아직 젬마4가 우위라 상용 고품질 응답보다는 로컬 AI·실시간 편집·연구 실험에 적합함

  • 구글이 텍스트 생성 방식을 아예 다르게 가져가는 오픈소스 모델 ‘디퓨전젬마’를 공개함

    • 기존 대규모 언어 모델은 보통 자기회귀 방식이라 토큰을 왼쪽에서 오른쪽으로 하나씩 만듦
    • 디퓨전젬마는 확산 방식으로 한 번에 256개 토큰짜리 텍스트 블록을 만들고, 여러 번 반복하면서 문단 전체를 정제함
    • 구글은 기존 방식을 ‘타자기’, 디퓨전젬마를 ‘대형 인쇄기’에 비유함. 비유가 좀 세긴 한데 방향은 명확함
  • 핵심 숫자는 속도임. 구글 기준으로 같은 하드웨어에서 기존 자기회귀 모델보다 최대 4배 빠름

    • 엔비디아 H100에서는 초당 1000토큰 이상 생성 가능
    • 지포스 RTX 5090에서도 초당 700토큰 이상을 낸다고 밝힘
    • 병목을 메모리 대역폭 중심에서 연산 중심으로 옮겨, 그래픽카드가 기다리는 시간을 줄였다는 설명임

중요

> 디퓨전젬마의 포인트는 “더 큰 모델”이 아니라 “토큰을 꼭 순서대로 만들어야 하냐”는 질문임. 로컬 AI나 실시간 편집 도구에서는 이 차이가 체감 속도로 바로 튀어나올 수 있음.

  • 모델 구조도 로컬 실행을 꽤 의식하고 설계됨

    • 전체 규모는 260억 파라미터지만 전문가혼합 구조라 실제 추론 때는 약 38억 파라미터만 활성화됨
    • 양자화를 적용하면 약 18GB 브이램으로도 돌릴 수 있다고 함
    • RTX 4090, RTX 5090 같은 고성능 소비자용 그래픽카드를 가진 개발자라면 실험 대상에 들어오는 수준임
  • 디퓨전젬마가 특히 흥미로운 지점은 양방향 주의집중을 쓴다는 점임

    • 자기회귀 모델은 현재 토큰을 만들 때 과거 토큰만 참고하는 구조임
    • 디퓨전젬마는 한 번에 생성되는 256개 토큰이 서로를 모두 참고할 수 있음
    • 그래서 문서 중간 수정, 코드 인필링, 마크다운 구조 생성처럼 앞뒤 문맥을 동시에 맞춰야 하는 작업에 잘 맞을 수 있음
  • 구글은 스도쿠 사례로 차이를 보여줌

    • 스도쿠는 각 칸의 답이 다른 칸과 강하게 연결돼 있어서 순서대로 답을 쓰는 모델에게 불리함
    • 언슬로스가 디퓨전젬마를 스도쿠 전용으로 파인튜닝했는데, 전체 퍼즐을 동시에 고려하는 구조가 문제 특성과 잘 맞았다는 설명임
    • 이게 최적화 문제, 과학 계산, 구조화 데이터 생성 쪽으로 이어질 수 있다는 게 구글의 기대임
  • 그렇다고 당장 젬마4를 대체하는 모델은 아님

    • 구글도 출력 품질은 아직 젬마4가 더 낫다고 선을 그음
    • 최고 품질 응답이 필요한 상용 서비스라면 젬마4를 쓰는 게 낫다는 입장임
    • 디퓨전젬마는 연구자와 개발자가 로컬 AI, 실시간 편집, 고속 반복 작업, 비선형 텍스트 생성을 실험해보는 플랫폼에 가까움
  • 생태계 연동은 꽤 공격적으로 깔아둠

    • 허깅페이스를 통해 모델 가중치를 공개했고, 개발자 가이드와 시각적 가이드도 제공함
    • MLX, vLLM, 허깅페이스 트랜스포머, 엔비디아 니모, 언슬로스, 해커블 디퓨전과 연동됨
    • 레드햇은 vLLM 통합을 지원하고, 엔비디아는 H100과 블랙웰 최적화를 맡았음
    • 엔비디아의 4비트 부동소수점 포맷 NVFP4를 활용해 정확도 손실을 줄이면서 처리량을 높였다고 함

기술 맥락

  • 디퓨전젬마의 선택은 “언어 모델은 반드시 다음 토큰 예측이어야 하나”에서 출발해요. 자기회귀 방식은 품질이 강하지만 순차성이 너무 강해서, 로컬 실행처럼 요청이 하나씩 들어오는 환경에서는 그래픽카드가 놀게 되는 시간이 생기거든요.

  • 확산 방식은 한 블록을 먼저 만들고 여러 번 고치는 구조라서 병렬 연산을 더 많이 태울 수 있어요. 그래서 H100이나 RTX 5090 같은 그래픽카드에서 초당 토큰 수가 크게 올라가는 건데, 대신 반복 정제 과정에서 품질을 얼마나 안정적으로 끌어올리느냐가 숙제로 남아요.

  • 전문가혼합 구조도 같은 맥락이에요. 전체 모델은 260억 파라미터지만 매번 약 38억 파라미터만 쓰면, 모델 용량은 확보하면서 실제 추론 비용은 줄일 수 있어요. 로컬 AI를 노린다면 이 절충이 꽤 중요해요.

  • 양방향 주의집중은 문서 편집이나 코드 인필링에서 의미가 커요. 앞부분만 보고 다음을 쓰는 게 아니라 앞뒤 문맥을 동시에 보고 빈칸을 채울 수 있으니, “문장 중간을 자연스럽게 바꾸는” 작업에는 구조적으로 더 잘 맞는 편이에요.

모델 크기 경쟁만 보던 흐름에서 ‘생성 방식을 바꾸면 뭐가 달라지나’로 초점이 옮겨가는 신호다. 로컬 AI나 코딩 도구처럼 지연 시간이 체감 품질을 좌우하는 영역에서는 꽤 볼 만한 실험임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

KT, 경기권 스타트업에 AI·클라우드 전환 전략 공유

KT가 경기권 스타트업을 대상으로 AI와 클라우드를 활용한 AX 전환 전략을 공유했다. AWS, 데이터브릭스, KT클라우드와 함께 AI 에이전트, 데이터 기반 의사결정, 클라우드 전환 사례를 소개하며 스타트업이 실제 업무에 적용할 수 있는 방향을 제시했다.

ai-ml

네이버클라우드, 국방 AI에 ‘옴니모달·엣지 데이터센터’ 카드 꺼냈다

네이버클라우드가 국방 AI를 실제 작전 환경에 적용하기 위한 전략을 공개했다. 핵심은 텍스트·음성·영상·지도 데이터를 한 작전 상황으로 묶는 옴니모달 AI, 중앙·엣지 데이터센터, 온톨로지 기반 지식체계, 현장 엔지니어 전진 배치다. 해외의 합동 지휘통제 사례까지 끌어오며 국방 AI가 단순 자동화가 아니라 미래 지휘통제 경쟁력이라는 메시지를 던졌다.

ai-ml

네이버클라우드, 국방 AI 시장에 풀스택으로 들어가려는 그림

네이버클라우드가 국방 인공지능 전환 시장을 겨냥해 옴니모달 AI, 국방 전용 AI 데이터센터, 전장 엣지, 현장 파견 엔지니어 체계를 묶은 전략을 공개했다. 단순 모델 납품이 아니라 폐쇄망 클라우드와 작전 체계 연동까지 포함한 국방 AI 인프라 포지셔닝에 가깝다.

ai-ml

네이버클라우드, 국방 AI 전담팀 꾸리고 ‘소버린 AI’로 합참 AX 겨냥

네이버클라우드가 국방 AX 전담 조직을 만들고 소버린 AI 기반 국방 인프라 전략을 공개했다. 하이퍼클로바X 옴니모달, 구축형 클라우드, 온톨로지 기반 지식체계, 현장 배치형 개발자를 묶어 군사 데이터를 통합 분석하는 풀스택 전략을 내세웠다. 합참의 K-JADC2 추진 흐름과 맞물려 국내 클라우드·AI 기업들의 국방 시장 경쟁이 본격화되는 분위기다.

ai-ml

AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

LG AI연구원은 생성형 AI 저작권·데이터 공급망 리스크에 대응하려면 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 추적하는 AI-BOM이 필요하다고 설명했다. 자체 분석에서는 상업적으로 이용 가능해 보이는 2852개 데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 데이터셋이 605개, 약 21.21%에 그쳤다. 오픈소스 코드 기준의 라이선스 판단을 AI 학습데이터에 그대로 적용하면 큰 오판이 날 수 있다는 얘기다.