---
title: "허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들"
published: 2026-06-11T21:05:03.216Z
canonical: https://jeff.news/article/4094
---
# 허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들

이번 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 모델, 디퓨전 방식 언어모델이 동시에 주목받은 한 주였다. 오픈웨이트 경쟁이 스타트업만의 무기가 아니라 빅테크의 본격 전장으로 넘어가고 있다는 해석이 나온다.

## 빅테크 오픈웨이트가 한 주에 몰아서 쏟아짐

- 이번 허깅페이스 트렌드는 한 문장으로 정리하면 “AI가 가리키고, 듣고, 그리듯 쓴다”에 가까움
  - 엔비디아는 말로 지시하면 이미지 속 좌표를 찍는 모델을 공개함
  - 구글은 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 처리하는 젬마 4 12B를 내놨음
  - 또 구글은 언어모델이 한 토큰씩 쓰는 방식을 버리고, 디퓨전처럼 텍스트를 생성하는 디퓨전젬마도 공개함

- 흐름 자체가 꽤 중요함. 오픈웨이트가 더 이상 스타트업의 생존 전략만은 아님
  - 엔비디아, 구글 같은 빅테크가 연구용·상업용 모델을 허깅페이스에 계속 올리고 있음
  - 이데오그램처럼 폐쇄형 API 중심이던 이미지 생성 기업도 창사 첫 가중치 공개에 나섬
  - 다만 아파치 2.0, MIT, 연구 전용, 게이트 다운로드처럼 라이선스 조건은 제각각이라 기업 도입 전 실사가 필수임

> [!IMPORTANT]
> “오픈”이라고 다 같은 오픈이 아님. 젬마·디퓨전젬마처럼 상업 이용이 가능한 경우도 있지만, LocateAnything처럼 연구용으로 제한되는 모델도 있어서 라이선스 확인이 성능 비교보다 먼저임.

## 엔비디아 LocateAnything-3B: 말하면 좌표로 답하는 모델

- LocateAnything-3B는 이미지 속 객체를 자연어로 찾아 바운딩 박스나 점 좌표로 찍어주는 비주얼 그라운딩 모델임
  - “빨간 셔츠를 입은 사람들을 찾아줘”라고 하면 해당 위치를 좌표로 반환하는 식
  - 엔비디아 이글 비전언어모델 패밀리의 30억 파라미터 모델이고, 5월 26일 공개 후 보름 남짓 만에 월 다운로드 11만 회를 넘김

- 핵심 기술은 병렬 박스 디코딩(PBD)임
  - 기존 방식은 박스 좌표를 x1, y1, x2, y2처럼 토큰 하나씩 순서대로 생성해서 객체가 많아질수록 느려짐
  - PBD는 박스 하나를 통째로 병렬 예측해 기존 방식 대비 최대 2.5배 처리량을 낸다고 설명됨
  - 학습 데이터도 큼. 1200만 장 이미지, 1억3800만 건 질의, 7억8500만 개 바운딩 박스를 사용함

- 활용처는 “무엇이 보이는가”보다 “어디에 있는가”가 중요한 곳임
  - 화면 속 버튼을 찾아 클릭하는 GUI 에이전트
  - 로봇·자율주행의 시각 인지
  - 문서 레이아웃 분석과 OCR 위치 검출
  - 산업 검사, 관제 영상 분석, 데이터셋 자동 라벨링

## 구글 Gemma 4 12B: 인코더 없이 보고 듣는 노트북용 멀티모달

- Gemma 4 12B는 구글 딥마인드가 6월 3일 공개한 미드사이즈 멀티모달 모델임
  - 텍스트, 이미지, 오디오, 비디오를 단일 트랜스포머로 처리하는 인코더 프리 구조를 채택함
  - 기존 멀티모달 모델이 비전 인코더와 오디오 인코더를 따로 붙이는 것과 다른 방향임
  - 16GB 메모리 노트북에서 구동된다는 점을 강하게 내세움

- 스펙은 꽤 공격적임
  - 256K 토큰 컨텍스트와 140개 이상 언어를 지원함
  - 추론 모드와 네이티브 함수 호출도 포함됨
  - 젬마 4부터는 상업적 이용 제약이 없는 아파치 2.0 라이선스로 전환됨

- 구글 발표 기준 성능도 체급 대비 높게 제시됨
  - 문서이해(DocVQA) 94.9점
  - 수학 경시(AIME 2026) 77.5점
  - 시각 수학(MATH-Vision) 79.7점
  - 한 세대 전 27B 모델을 주요 벤치마크에서 앞서고, 같은 세대 26B MoE 모델에 근접한다고 설명됨

## DiffusionGemma: 한 토큰씩 안 쓰고 ‘한 폭씩’ 생성하는 언어모델

- 디퓨전젬마는 이번 기사에서 제일 실험적인 모델임
  - 구글 딥마인드가 6월 10일 공개했고, 젬마 4 26B A4B의 혼합전문가 구조를 물려받음
  - 총 252억 파라미터 중 38억 개만 활성화해 추론함
  - 라이선스는 아파치 2.0이라 상업적 이용에 제약이 없음

- 진짜 포인트는 생성 방식임
  - 기존 언어모델은 대부분 한 토큰씩 차례로 생성하는 자기회귀 방식임
  - 디퓨전젬마는 256토큰짜리 캔버스를 놓고, 이미지 생성 AI처럼 흐릿한 초안을 여러 번 다듬어 완성하는 이산 디퓨전 방식을 사용함
  - H100 GPU FP8 기준 저배치에서 초당 1100토큰 이상을 제시함. 이건 체감상 “빠르다” 수준을 넘어서 워크로드 설계를 바꿀 수 있는 수치임

> [!NOTE]
> 디퓨전 언어모델은 그동안 실험실 느낌이 강했는데, 구글이 오픈웨이트로 실전형 모델을 꺼낸 점이 포인트임. 자기회귀 일변도였던 텍스트 생성 방식에 균열이 생기는 장면임.

- 활용처는 지연 시간이 중요한 텍스트 생성 워크로드임
  - 실시간 챗봇과 음성 에이전트
  - 코드 자동 생성
  - OCR·PDF 파싱 같은 문서 이해
  - 대량 문서 요약 파이프라인

## 스페이스 쪽도 실사용 데모가 강해짐

- Ideogram 4는 글씨를 잘 그리는 이미지 생성 모델로 주목받음
  - 구글 브레인 출신 연구자들이 만든 이데오그램이 창사 이후 처음으로 모델 가중치를 공개함
  - 93억 파라미터 디퓨전 트랜스포머(DiT)이고, 텍스트가 들어간 포스터·로고·광고 비주얼에 강점이 있음
  - 전문 디자이너 10인 블라인드 타이포그래피 평가에서 1위 선택 비율 47.9%를 기록해 구글 나노 바나나 2의 30.0%를 앞섬

- TripoSplat은 사진 한 장을 3D 가우시안 스플랫으로 바꾸는 데모임
  - 사용자가 생성할 가우시안 개수를 최대 26만2144개까지 조절할 수 있음
  - 품질과 렌더링 비용 사이의 균형을 직접 고를 수 있다는 뜻
  - 코드가 파일 2개, 약 2000줄로 정리돼 있고, 라이선스는 MIT라 상업적 활용 제약이 없음

- Gemma 4 12B 공식 스페이스는 멀티모달 모델을 브라우저에서 바로 만져보는 창구임
  - 텍스트뿐 아니라 이미지, 오디오, 비디오를 올려 대화할 수 있음
  - 회의 녹음 요약, 표가 들어간 문서 사진 정리, 짧은 영상 설명 같은 테스트를 설치 없이 해볼 수 있음
  - 도입 전에 “우리 데이터에 쓸 만한가”를 빠르게 확인하기 좋은 형태임

## 그래서 개발자에게 뭐가 중요하냐면

- 첫째, 오픈웨이트 모델을 고를 때 라이선스가 첫 관문이 됨
  - 아파치 2.0이나 MIT는 비교적 자유롭지만, 연구 전용이나 게이트 다운로드 모델은 제품 적용 전에 조건을 따져야 함
  - 이제 모델 비교표에 정확도, 지연 시간, 비용뿐 아니라 라이선스와 배포 제약도 같이 들어가야 함

- 둘째, AI 아키텍처의 효율 경쟁이 본격화되고 있음
  - Gemma 4 12B는 인코더를 줄여 배포 부담을 낮춤
  - DiffusionGemma는 생성 방식을 바꿔 병렬화와 속도를 노림
  - 더 큰 GPU를 쌓는 싸움만이 아니라, 구조를 바꿔 추론 비용을 줄이는 싸움이 커지는 중임

- 셋째, 비전 AI가 묘사에서 행동 쪽으로 이동하고 있음
  - LocateAnything처럼 좌표를 찍는 모델은 컴퓨터 사용 에이전트, 로봇, 자율주행의 공통 기반이 될 수 있음
  - 한국처럼 제조, 로봇, 스마트팩토리, 자동차 쪽이 강한 생태계에선 꽤 직접적으로 볼 만한 흐름임

---

## 기술 맥락

- 이번 기사에서 제일 큰 변화는 빅테크가 오픈웨이트를 실험용 홍보물이 아니라 제품 전략의 일부로 쓰기 시작했다는 점이에요. 구글은 젬마 계열을 아파치 2.0으로 풀고, 엔비디아는 상용 모델에 들어간 기술의 공개 버전을 내놓는 식이에요.

- Gemma 4 12B의 인코더 프리 구조는 배포 비용을 줄이려는 선택으로 볼 수 있어요. 멀티모달 모델은 보통 이미지와 오디오 처리 부품이 따로 붙어 복잡해지는데, 이 부품을 줄이면 노트북 같은 제한된 환경에서도 돌릴 가능성이 커지거든요.

- DiffusionGemma의 이산 디퓨전 방식은 생성 속도를 노린 선택이에요. 자기회귀 모델은 앞 토큰이 나와야 다음 토큰을 만들 수 있어서 병렬화가 어렵지만, 블록 단위로 다듬는 방식은 한 번에 처리할 여지가 더 많아요.

- LocateAnything의 비주얼 그라운딩은 에이전트가 실제 화면이나 물리 세계에서 행동하기 위한 기반이에요. “무엇이 있다”를 아는 것만으로는 부족하고, 버튼이 어디 있는지, 물체가 어느 좌표에 있는지를 알아야 클릭하거나 집을 수 있거든요.

- 그래서 국내 개발팀이 볼 포인트는 모델 순위 자체보다 적용 조건이에요. 라이선스, 온디바이스 가능성, 지연 시간, 좌표 추론 정확도처럼 실제 제품에 넣을 때 문제가 되는 항목을 같이 봐야 해요.

## 핵심 포인트

- 엔비디아 LocateAnything-3B는 자연어 지시를 이미지 좌표와 바운딩 박스로 변환하는 비주얼 그라운딩 모델
- 구글 Gemma 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리
- 구글 DiffusionGemma는 자기회귀 대신 이산 디퓨전 방식으로 텍스트를 생성하며 H100 기준 초당 1100토큰 이상을 제시
- Ideogram 4, TripoSplat 등 생성형 이미지와 3D 쪽에서도 오픈웨이트·실사용 데모가 확산 중

## 인사이트

이번 흐름의 진짜 재미는 성능 수치보다 아키텍처의 상식이 흔들린다는 점이다. 멀티모달은 인코더를 줄이고, 언어모델은 한 토큰씩 쓰는 방식을 버리며, 비전 모델은 설명을 넘어 좌표를 직접 찍는 쪽으로 가고 있다.
