본문으로 건너뛰기
피드

구글, 토큰을 한 글자씩 뱉지 않는 실험적 모델 ‘디퓨전젬마’ 공개

ai-ml 약 6분
vote
0
댓글
북마크

구글이 기존 자기회귀 방식과 다른 텍스트 생성 구조를 쓰는 실험적 오픈소스 모델 ‘디퓨전젬마’를 공개했다. 한 번에 256개 토큰 블록을 만들고 반복 정제하는 확산 방식으로, 엔비디아 H100에서 초당 1000개 이상 토큰 생성 성능을 낸다고 설명한다.

  • 1

    디퓨전젬마는 텍스트를 한 토큰씩 순차 생성하지 않고 256개 토큰 블록 단위로 동시에 생성함

  • 2

    엔비디아 H100에서 초당 1000개 이상, 지포스 RTX 5090에서 초당 700개 이상 토큰 생성을 제시함

  • 3

    260억 전체 매개변수 중 추론 시 38억 매개변수만 활성화하는 전문가 혼합 구조를 사용함

  • 4

    문서 중간 수정, 코드 인필링, 마크다운 생성처럼 앞뒤 문맥을 동시에 봐야 하는 작업에 강점을 내세움

  • 구글이 실험적 오픈소스 모델 ‘디퓨전젬마’를 공개함

    • 핵심은 기존 거대언어모델처럼 토큰을 왼쪽에서 오른쪽으로 하나씩 생성하지 않는다는 점임
    • 한 번에 256개 토큰 규모의 텍스트 블록을 만들고, 이후 여러 번 반복 정제해 최종 결과를 완성하는 확산 방식을 쓴다고 설명됨
    • 구글은 이를 “한 글자씩 치는 게 아니라 문단 전체를 찍어내는 대형 인쇄기”에 비유함
  • 기존 자기회귀 모델의 병목을 정면으로 찌르는 구조임

    • 대부분의 거대언어모델은 이전 토큰이 있어야 다음 토큰을 만들 수 있음
    • 이 방식은 품질은 좋지만, 생성 과정이 근본적으로 순차 처리라 병렬화에 한계가 있음
    • 디퓨전젬마는 텍스트 블록 전체를 동시에 생성하니 하드웨어 활용 방식 자체가 달라짐

중요

> 구글이 제시한 성능은 엔비디아 H100에서 초당 1000개 이상 토큰, 지포스 RTX 5090에서 초당 700개 이상 토큰임. 같은 하드웨어에서 기존 자기회귀 모델 대비 최대 4배 빠른 수준이라고 설명함.

  • 속도 향상의 핵심은 병목을 메모리 대역폭에서 연산 쪽으로 옮긴 데 있음

    • 기존 모델은 다음 토큰을 만들 때마다 이전 상태를 읽고 쓰는 과정에서 메모리 대역폭 병목이 커짐
    • 디퓨전젬마는 그래픽처리장치가 기다리는 시간을 줄이고 실제 연산 자원을 더 많이 쓰도록 설계됐다고 함
    • 실시간 채팅, 즉각적인 문서 수정, 대화형 코딩 도구처럼 지연시간이 곧 사용자 경험인 앱에서 이점이 커질 수 있음
  • 하드웨어 요구사항도 로컬 AI를 의식한 쪽임

    • 전체 모델 크기는 260억 매개변수지만, 전문가 혼합(MoE) 구조 덕분에 추론 중에는 38억 매개변수만 활성화함
    • 양자화를 적용하면 약 18GB 비디오 메모리로도 구동할 수 있다고 설명됨
    • RTX 4090이나 RTX 5090 같은 고성능 소비자용 그래픽카드에서도 실행 가능한 수준을 노린 셈임
  • 디퓨전젬마가 특히 노리는 작업은 “앞뒤 문맥을 동시에 봐야 하는 생성”임

    • 기존 자기회귀 모델은 현재 토큰이 이전 토큰만 참조하는 구조임
    • 디퓨전젬마는 256개 토큰 블록 안의 토큰들이 서로를 모두 참조하는 양방향 주의집중을 활용함
    • 문서 중간 수정, 코드 인필링, 아미노산 서열 생성, 수학적 그래프 생성처럼 비선형적인 문제에서 강점을 보인다고 함
  • 마크다운 문서 생성 같은 구조화 텍스트에도 유리하다고 설명됨

    • 마크다운은 시작과 끝이 맞아야 하는 구조가 많음
    • 목록, 코드 블록, 강조 표시처럼 앞뒤 짝이 깨지면 결과물이 바로 어색해짐
    • 블록 전체를 보고 정제하는 방식이면 이런 구조적 일관성을 맞추는 데 유리할 수 있음
  • 생성 과정에서 모델이 스스로 결과를 고치는 ‘자기 정제’도 들어감

    • 초기 텍스트를 만든 뒤 여러 차례 반복하면서 전체 문단을 다시 검토함
    • 이미 확정된 토큰을 기준점으로 삼고 나머지 부분을 계속 개선하는 방식임
    • 이미지 생성 인공지능이 노이즈에서 시작해 점점 선명한 이미지를 만드는 과정과 비슷한 흐름임
  • 구글은 디퓨전젬마를 연구자와 개발자용 실험 플랫폼으로 보고 있음

    • 로컬 AI, 실시간 편집, 고속 반복 작업, 비선형 텍스트 생성 사례를 탐색하는 데 적합하다고 설명함
    • 모델 가중치는 허깅페이스를 통해 공개됐고, 개발자 가이드도 함께 제공됨
    • 설치, 추론 환경 구성, 활용 사례, 최적화 기법을 단계별로 익힐 수 있게 자료를 제공한다고 함
sequenceDiagram
    participant 사용자
    participant 디퓨전젬마
    participant 토큰블록
    participant 정제루프
    participant 결과문서
    사용자->>디퓨전젬마: 프롬프트 입력
    디퓨전젬마->>토큰블록: 256개 토큰 블록 동시 생성
    토큰블록->>정제루프: 전체 문맥 기준으로 반복 검토
    정제루프->>토큰블록: 오류와 구조 불일치 수정
    토큰블록->>결과문서: 최종 텍스트 출력

기술 맥락

  • 디퓨전젬마의 선택은 “모델을 더 크게 만들자”가 아니라 “생성 방식을 바꿔 병목을 줄이자”에 가까워요. 자기회귀 모델은 다음 토큰을 만들려면 이전 토큰이 필요해서, 좋은 그래픽처리장치가 있어도 순서대로 기다리는 시간이 생기거든요.

  • 확산 방식을 텍스트에 적용한 이유는 블록 단위 병렬성을 얻기 위해서예요. 256개 토큰을 한꺼번에 만들고 여러 번 다듬으면, 그래픽처리장치가 놀지 않고 더 많은 연산을 한 번에 처리할 수 있어요.

  • 양방향 주의집중이 중요한 건 문서 수정과 코드 인필링 때문이에요. 중간에 들어갈 내용을 만들 때는 앞쪽만 보면 부족하고, 뒤쪽 문맥까지 같이 봐야 자연스럽게 맞아떨어지거든요.

  • 전문가 혼합 구조와 양자화는 로컬 실행을 위한 현실적인 타협이에요. 260억 매개변수 모델을 그대로 굴리면 부담이 크지만, 추론 때 38억 매개변수만 활성화하고 약 18GB 비디오 메모리로 맞추면 개인 워크스테이션에서도 실험 가능한 범위가 돼요.

로컬 AI에서 체감 성능은 모델 크기만큼이나 지연시간이 중요함. 디퓨전젬마가 흥미로운 건 ‘더 큰 모델’ 경쟁이 아니라, 텍스트 생성의 순차 병목을 다른 방식으로 깨보려는 시도라는 점임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

클로드가 애저 안으로 들어옴…앤트로픽·엔비디아·마이크로소프트 동맹 본격 가동

앤트로픽의 클로드 모델군이 엔비디아 블랙웰 울트라 기반 마이크로소프트 애저 클라우드에 정식 배포됐다. 이제 애저 고객은 외부 호출이 아니라 애저 내부에서 클로드를 직접 구동할 수 있어, 데이터 역외 이전 규제가 있는 기업에게 꽤 큰 변화다.

ai-ml

백악관 AI 규제 강화, 오픈소스 모델엔 오히려 기회 될까

미국 백악관의 AI 규제 강화 흐름 속에서 오픈소스 AI 모델이 상대적으로 주목받을 수 있다는 분석이 나왔다. 폐쇄형 모델에 대한 공급 안정성, 규제 리스크, 특정 업체 의존 문제가 커지면서 개발자와 기업이 오픈소스 대안을 더 진지하게 보고 있다는 내용이다.

ai-ml

한국은행, AI 데이터센터 투자가 미국 경제 성장축 됐다고 분석

한국은행 뉴욕 사무소가 AI 확산에 따른 컴퓨팅 수요와 데이터센터 투자를 미국 경제의 핵심 성장 동력으로 봤다. 미국에는 현재 데이터센터 4,378개가 가동 중이고, 약 2,700개가 건설 중이거나 계획 중이며, AI 반도체와 서버의 경제적 수명은 2∼3년에 불과해 투자 사이클이 계속 이어질 수 있다는 분석이다.

ai-ml

국제결제은행, AI 투자 열풍이 금융시장 흔들 수 있다고 경고

국제결제은행(BIS)이 AI 부문으로 몰리는 투자 열풍이 장기 침체와 금융시장 불안을 부를 수 있다고 경고했다. 하이퍼스케일러들은 내년까지 AI 인프라에 1조 달러 이상을 쏟아부을 예정이지만, 이제는 막대한 지출이 실제 현금 흐름과 이익으로 이어지는지 검증해야 한다는 메시지다.

ai-ml

GS, 산업 현장 안전관리 AI를 중소기업에 무상 제공

GS그룹이 안전관리 AI 에이전트 ‘에어(AIR)’를 중소기업에 무상 제공하고 있다. 작업명과 설명만 넣으면 생성형 AI가 공정, 위험요인, 위험등급, 예방 대책을 자동으로 만들고, 실제 현장에서는 위험성 평가 시간이 기존의 10분의 1로 줄었다.