허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들

ai-ml 2026-06-11 약 10분

 tags

#huggingface #multimodal #diffusion #vision-language #open-weights

vote

북마크

이번 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 모델, 디퓨전 방식 언어모델이 동시에 주목받은 한 주였다. 오픈웨이트 경쟁이 스타트업만의 무기가 아니라 빅테크의 본격 전장으로 넘어가고 있다는 해석이 나온다.

1
엔비디아 LocateAnything-3B는 자연어 지시를 이미지 좌표와 바운딩 박스로 변환하는 비주얼 그라운딩 모델
2
구글 Gemma 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리
3
구글 DiffusionGemma는 자기회귀 대신 이산 디퓨전 방식으로 텍스트를 생성하며 H100 기준 초당 1100토큰 이상을 제시
4
Ideogram 4, TripoSplat 등 생성형 이미지와 3D 쪽에서도 오픈웨이트·실사용 데모가 확산 중

빅테크 오픈웨이트가 한 주에 몰아서 쏟아짐

이번 허깅페이스 트렌드는 한 문장으로 정리하면 “AI가 가리키고, 듣고, 그리듯 쓴다”에 가까움
- 엔비디아는 말로 지시하면 이미지 속 좌표를 찍는 모델을 공개함
- 구글은 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 처리하는 젬마 4 12B를 내놨음
- 또 구글은 언어모델이 한 토큰씩 쓰는 방식을 버리고, 디퓨전처럼 텍스트를 생성하는 디퓨전젬마도 공개함
흐름 자체가 꽤 중요함. 오픈웨이트가 더 이상 스타트업의 생존 전략만은 아님
- 엔비디아, 구글 같은 빅테크가 연구용·상업용 모델을 허깅페이스에 계속 올리고 있음
- 이데오그램처럼 폐쇄형 API 중심이던 이미지 생성 기업도 창사 첫 가중치 공개에 나섬
- 다만 아파치 2.0, MIT, 연구 전용, 게이트 다운로드처럼 라이선스 조건은 제각각이라 기업 도입 전 실사가 필수임

❗중요

> “오픈”이라고 다 같은 오픈이 아님. 젬마·디퓨전젬마처럼 상업 이용이 가능한 경우도 있지만, LocateAnything처럼 연구용으로 제한되는 모델도 있어서 라이선스 확인이 성능 비교보다 먼저임.

엔비디아 LocateAnything-3B: 말하면 좌표로 답하는 모델

LocateAnything-3B는 이미지 속 객체를 자연어로 찾아 바운딩 박스나 점 좌표로 찍어주는 비주얼 그라운딩 모델임
- “빨간 셔츠를 입은 사람들을 찾아줘”라고 하면 해당 위치를 좌표로 반환하는 식
- 엔비디아 이글 비전언어모델 패밀리의 30억 파라미터 모델이고, 5월 26일 공개 후 보름 남짓 만에 월 다운로드 11만 회를 넘김
핵심 기술은 병렬 박스 디코딩(PBD)임
- 기존 방식은 박스 좌표를 x1, y1, x2, y2처럼 토큰 하나씩 순서대로 생성해서 객체가 많아질수록 느려짐
- PBD는 박스 하나를 통째로 병렬 예측해 기존 방식 대비 최대 2.5배 처리량을 낸다고 설명됨
- 학습 데이터도 큼. 1200만 장 이미지, 1억3800만 건 질의, 7억8500만 개 바운딩 박스를 사용함
활용처는 “무엇이 보이는가”보다 “어디에 있는가”가 중요한 곳임
- 화면 속 버튼을 찾아 클릭하는 GUI 에이전트
- 로봇·자율주행의 시각 인지
- 문서 레이아웃 분석과 OCR 위치 검출
- 산업 검사, 관제 영상 분석, 데이터셋 자동 라벨링

구글 Gemma 4 12B: 인코더 없이 보고 듣는 노트북용 멀티모달

Gemma 4 12B는 구글 딥마인드가 6월 3일 공개한 미드사이즈 멀티모달 모델임
- 텍스트, 이미지, 오디오, 비디오를 단일 트랜스포머로 처리하는 인코더 프리 구조를 채택함
- 기존 멀티모달 모델이 비전 인코더와 오디오 인코더를 따로 붙이는 것과 다른 방향임
- 16GB 메모리 노트북에서 구동된다는 점을 강하게 내세움
스펙은 꽤 공격적임
- 256K 토큰 컨텍스트와 140개 이상 언어를 지원함
- 추론 모드와 네이티브 함수 호출도 포함됨
- 젬마 4부터는 상업적 이용 제약이 없는 아파치 2.0 라이선스로 전환됨
구글 발표 기준 성능도 체급 대비 높게 제시됨
- 문서이해(DocVQA) 94.9점
- 수학 경시(AIME 2026) 77.5점
- 시각 수학(MATH-Vision) 79.7점
- 한 세대 전 27B 모델을 주요 벤치마크에서 앞서고, 같은 세대 26B MoE 모델에 근접한다고 설명됨

DiffusionGemma: 한 토큰씩 안 쓰고 ‘한 폭씩’ 생성하는 언어모델

디퓨전젬마는 이번 기사에서 제일 실험적인 모델임
- 구글 딥마인드가 6월 10일 공개했고, 젬마 4 26B A4B의 혼합전문가 구조를 물려받음
- 총 252억 파라미터 중 38억 개만 활성화해 추론함
- 라이선스는 아파치 2.0이라 상업적 이용에 제약이 없음
진짜 포인트는 생성 방식임
- 기존 언어모델은 대부분 한 토큰씩 차례로 생성하는 자기회귀 방식임
- 디퓨전젬마는 256토큰짜리 캔버스를 놓고, 이미지 생성 AI처럼 흐릿한 초안을 여러 번 다듬어 완성하는 이산 디퓨전 방식을 사용함
- H100 GPU FP8 기준 저배치에서 초당 1100토큰 이상을 제시함. 이건 체감상 “빠르다” 수준을 넘어서 워크로드 설계를 바꿀 수 있는 수치임

ℹ️참고

> 디퓨전 언어모델은 그동안 실험실 느낌이 강했는데, 구글이 오픈웨이트로 실전형 모델을 꺼낸 점이 포인트임. 자기회귀 일변도였던 텍스트 생성 방식에 균열이 생기는 장면임.

활용처는 지연 시간이 중요한 텍스트 생성 워크로드임
- 실시간 챗봇과 음성 에이전트
- 코드 자동 생성
- OCR·PDF 파싱 같은 문서 이해
- 대량 문서 요약 파이프라인

스페이스 쪽도 실사용 데모가 강해짐

Ideogram 4는 글씨를 잘 그리는 이미지 생성 모델로 주목받음
- 구글 브레인 출신 연구자들이 만든 이데오그램이 창사 이후 처음으로 모델 가중치를 공개함
- 93억 파라미터 디퓨전 트랜스포머(DiT)이고, 텍스트가 들어간 포스터·로고·광고 비주얼에 강점이 있음
- 전문 디자이너 10인 블라인드 타이포그래피 평가에서 1위 선택 비율 47.9%를 기록해 구글 나노 바나나 2의 30.0%를 앞섬
TripoSplat은 사진 한 장을 3D 가우시안 스플랫으로 바꾸는 데모임
- 사용자가 생성할 가우시안 개수를 최대 26만2144개까지 조절할 수 있음
- 품질과 렌더링 비용 사이의 균형을 직접 고를 수 있다는 뜻
- 코드가 파일 2개, 약 2000줄로 정리돼 있고, 라이선스는 MIT라 상업적 활용 제약이 없음
Gemma 4 12B 공식 스페이스는 멀티모달 모델을 브라우저에서 바로 만져보는 창구임
- 텍스트뿐 아니라 이미지, 오디오, 비디오를 올려 대화할 수 있음
- 회의 녹음 요약, 표가 들어간 문서 사진 정리, 짧은 영상 설명 같은 테스트를 설치 없이 해볼 수 있음
- 도입 전에 “우리 데이터에 쓸 만한가”를 빠르게 확인하기 좋은 형태임

그래서 개발자에게 뭐가 중요하냐면

첫째, 오픈웨이트 모델을 고를 때 라이선스가 첫 관문이 됨
- 아파치 2.0이나 MIT는 비교적 자유롭지만, 연구 전용이나 게이트 다운로드 모델은 제품 적용 전에 조건을 따져야 함
- 이제 모델 비교표에 정확도, 지연 시간, 비용뿐 아니라 라이선스와 배포 제약도 같이 들어가야 함
둘째, AI 아키텍처의 효율 경쟁이 본격화되고 있음
- Gemma 4 12B는 인코더를 줄여 배포 부담을 낮춤
- DiffusionGemma는 생성 방식을 바꿔 병렬화와 속도를 노림
- 더 큰 GPU를 쌓는 싸움만이 아니라, 구조를 바꿔 추론 비용을 줄이는 싸움이 커지는 중임
셋째, 비전 AI가 묘사에서 행동 쪽으로 이동하고 있음
- LocateAnything처럼 좌표를 찍는 모델은 컴퓨터 사용 에이전트, 로봇, 자율주행의 공통 기반이 될 수 있음
- 한국처럼 제조, 로봇, 스마트팩토리, 자동차 쪽이 강한 생태계에선 꽤 직접적으로 볼 만한 흐름임

기술 맥락

이번 기사에서 제일 큰 변화는 빅테크가 오픈웨이트를 실험용 홍보물이 아니라 제품 전략의 일부로 쓰기 시작했다는 점이에요. 구글은 젬마 계열을 아파치 2.0으로 풀고, 엔비디아는 상용 모델에 들어간 기술의 공개 버전을 내놓는 식이에요.
Gemma 4 12B의 인코더 프리 구조는 배포 비용을 줄이려는 선택으로 볼 수 있어요. 멀티모달 모델은 보통 이미지와 오디오 처리 부품이 따로 붙어 복잡해지는데, 이 부품을 줄이면 노트북 같은 제한된 환경에서도 돌릴 가능성이 커지거든요.
DiffusionGemma의 이산 디퓨전 방식은 생성 속도를 노린 선택이에요. 자기회귀 모델은 앞 토큰이 나와야 다음 토큰을 만들 수 있어서 병렬화가 어렵지만, 블록 단위로 다듬는 방식은 한 번에 처리할 여지가 더 많아요.
LocateAnything의 비주얼 그라운딩은 에이전트가 실제 화면이나 물리 세계에서 행동하기 위한 기반이에요. “무엇이 있다”를 아는 것만으로는 부족하고, 버튼이 어디 있는지, 물체가 어느 좌표에 있는지를 알아야 클릭하거나 집을 수 있거든요.
그래서 국내 개발팀이 볼 포인트는 모델 순위 자체보다 적용 조건이에요. 라이선스, 온디바이스 가능성, 지연 시간, 좌표 추론 정확도처럼 실제 제품에 넣을 때 문제가 되는 항목을 같이 봐야 해요.

이번 흐름의 진짜 재미는 성능 수치보다 아키텍처의 상식이 흔들린다는 점이다. 멀티모달은 인코더를 줄이고, 언어모델은 한 토큰씩 쓰는 방식을 버리며, 비전 모델은 설명을 넘어 좌표를 직접 찍는 쪽으로 가고 있다.

이전 기사 (P)

댓글을 불러오는 중...

ai-ml 2026-07-27

앤트로픽, “오픈 웨이트 모델 금지하자는 얘기 한 적 없다”

앤트로픽 CEO 다리오 아모데이가 오픈 웨이트 모델을 둘러싼 논란에 직접 입장을 냈다. 핵심은 오픈 웨이트 자체를 금지하자는 게 아니라, 강력한 칩의 중국 유입 차단, 대규모 증류 작업 규제, 고성능 모델의 출시 전 안전성 테스트가 필요하다는 주장이다.

ai-ml 2026-07-27

엔비디아·마이크로소프트, 미국에 오픈소스 AI 규제 자제 요청

엔비디아, 마이크로소프트, 메타, IBM 등 주요 기술 기업들이 미국 의원들에게 오픈소스 AI 모델을 성급하게 규제하지 말라고 요청했다. 이들은 폐쇄형 모델만으로 보안을 보장할 수 없고, 오픈소스 모델이 비용 통제와 보안 검증에 필요하다고 주장했다.

ai-ml 2026-07-27

서울아산병원은 AI로 뇌 MR 판독 시간을 14.3% 줄였다

서울아산병원이 영상의학과 병리진단 영역에서 AI를 실제 임상 업무에 적용한 사례를 소개한 글이다. 뇌 MR 판독 시간은 건당 66.9초에서 57.3초로 줄었고, Ki-67 병리 판독은 기존 10분가량 걸리던 작업이 5초 내외로 단축됐다.

ai-ml 2026-07-27

일본·대만이 구마모토에 피지컬 AI 반도체 거점을 만든다

일본 미쓰이 부동산이 2030년 구마모토 사이언스 파크에 피지컬 AI 반도체 개발 거점인 PASTEC을 세우기로 했다. 일본·대만 기업과 연구진, TSMC, 소재·장비·후공정 업체가 공동 클린룸을 활용해 제조·물류·로봇용 AI 반도체 시제품 제작까지 노린다는 내용이다.

ai-ml 2026-07-27

AI가 책까지 쓰는 시대, ‘사람이 썼다’가 프리미엄이 됐다

허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들

요약

핵심 포인트

핵심 개념

분석

빅테크 오픈웨이트가 한 주에 몰아서 쏟아짐

엔비디아 LocateAnything-3B: 말하면 좌표로 답하는 모델

구글 Gemma 4 12B: 인코더 없이 보고 듣는 노트북용 멀티모달

DiffusionGemma: 한 토큰씩 안 쓰고 ‘한 폭씩’ 생성하는 언어모델

스페이스 쪽도 실사용 데모가 강해짐

그래서 개발자에게 뭐가 중요하냐면

기술 맥락

인사이트

댓글

댓글

허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들

요약

핵심 포인트

핵심 개념

분석

빅테크 오픈웨이트가 한 주에 몰아서 쏟아짐

엔비디아 LocateAnything-3B: 말하면 좌표로 답하는 모델

구글 Gemma 4 12B: 인코더 없이 보고 듣는 노트북용 멀티모달

DiffusionGemma: 한 토큰씩 안 쓰고 ‘한 폭씩’ 생성하는 언어모델

스페이스 쪽도 실사용 데모가 강해짐

그래서 개발자에게 뭐가 중요하냐면

기술 맥락

인사이트

댓글

댓글

관련 기사