이번 주 허깅페이스는 ‘가리키고, 듣고, 그리듯 쓰는’ 오픈웨이트 모델 전쟁이었다

ai-ml 2026-06-11 약 10분

 tags

#huggingface #gemma #diffusion #multimodal #vision

vote

북마크

이번 주 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 젬마 4 12B, 디퓨전 방식 언어 모델 디퓨전젬마가 이끌었다. 공통점은 빅테크가 오픈웨이트로 성능뿐 아니라 배포 효율, 속도, 라이선스 전략까지 밀어붙이고 있다는 점이다. 한국 개발자 입장에서는 모델 성능보다 라이선스, 온디바이스 가능성, 추론 비용 구조를 같이 봐야 한다.

1
엔비디아 LocateAnything-3B는 자연어 지시를 이미지 속 좌표와 바운딩 박스로 바꾸는 비주얼 그라운딩 모델이며 출시 보름 만에 월 다운로드 11만 회를 넘겼다
2
구글 젬마 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리하고 16GB 노트북 구동을 목표로 한다
3
디퓨전젬마는 256토큰 블록을 디퓨전 방식으로 생성해 H100 기준 초당 1100토큰 이상을 기록했다고 소개됐다
4
오픈웨이트 모델이라도 아파치 2.0, MIT, 비상업 라이선스, 게이트 다운로드처럼 조건이 제각각이라 기업 도입 전 라이선스 확인이 필수다
5
비전 AI는 단순 묘사에서 좌표 기반 그라운딩으로, 언어 모델은 순차 생성에서 병렬 생성으로 아키텍처 상식이 흔들리는 중이다

이번 주 핵심은 ‘빅테크의 오픈웨이트 총공세’임

허깅페이스 트렌딩에서 이번 주 눈에 띈 건 엔비디아와 구글이 한꺼번에 꽤 센 모델들을 공개했다는 점임
- 엔비디아는 자연어로 말하면 이미지 속 좌표를 찍어주는 LocateAnything-3B를 내놨음
- 구글은 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 처리하는 젬마 4 12B를 공개함
- 또 텍스트를 한 토큰씩 쓰는 대신 디퓨전 방식으로 ‘한 블록씩 그리는’ 디퓨전젬마도 등장함
이 흐름을 단순히 “오픈소스 모델이 많아졌다”로 보면 좀 아까움
- 빅테크가 폐쇄형 API에서만 보이던 능력을 오픈웨이트 형태로 풀고 있음
- 성능 경쟁뿐 아니라 배포 크기, 추론 속도, 라이선스, 온디바이스 구동까지 같이 움직임
- 국내 개발팀 입장에선 이제 모델 랭킹보다 “우리 제품에 합법적으로, 싸게, 안정적으로 붙일 수 있나”가 더 중요해짐

엔비디아 LocateAnything-3B: 말하면 좌표로 찍어주는 모델

LocateAnything-3B는 비전 AI의 초점을 ‘무엇이 보이나’에서 ‘정확히 어디 있나’로 옮김
- “빨간 셔츠 입은 사람들을 찾아줘”라고 하면 이미지 속 해당 위치를 바운딩 박스로 답하는 식
- 엔비디아 이글 비전언어모델 패밀리의 30억 파라미터 모델임
- 출시 보름 정도 만에 월 다운로드 11만 회를 넘기며 허깅페이스 트렌딩 상위권에 올랐음
핵심은 병렬 박스 디코딩임
- 기존 방식은 박스 좌표를 토큰처럼 하나씩 순서대로 생성해서 객체가 많아질수록 느려짐
- 병렬 박스 디코딩은 박스 하나를 통째로 한 번에 예측해 최대 2.5배 처리량을 낸다고 소개됨
- 학습 데이터도 1200만 장 이미지, 1억3800만 건 질의, 7억8500만 개 바운딩 박스 규모로 꽤 큼

⚠️주의

> LocateAnything-3B는 좋아 보여도 상업용 제품에 바로 붙이면 안 됨. 엔비디아 비상업 라이선스라 학술·비영리 연구 목적만 허용되고, 백본인 큐원2.5도 별도 연구용 라이선스를 따름.

활용처는 꽤 직관적임
- 화면 속 버튼을 찾아 누르는 GUI 에이전트
- 로봇이나 자율주행의 시각 인지
- 문서 레이아웃 분석, OCR 위치 검출, 산업 검사, 관제 영상 분석
- 즉 “어디에 있는지”가 중요한 모든 작업에 맞음

구글 젬마 4 12B: 인코더를 줄여 노트북으로 끌어내림

젬마 4 12B는 멀티모달 모델의 흔한 부속을 덜어낸 게 포인트임
- 기존 멀티모달 모델은 보통 비전 인코더, 오디오 인코더를 붙여 이미지와 소리를 모델이 이해할 수 있게 바꿈
- 젬마 4 12B는 텍스트·이미지·오디오·비디오를 단일 트랜스포머에서 처리하는 인코더 프리 구조를 택함
- 그래서 16GB 메모리 노트북에서 구동되는 미드사이즈 모델 포지션을 노림
스펙도 꽤 공격적임
- 256K 토큰 컨텍스트와 140개 이상 언어를 지원함
- 추론 모드와 네이티브 함수 호출도 포함됨
- 구글 자체 발표 기준 문서이해 94.9점, AIME 2026 77.5점, 시각 수학 79.7점을 기록함
- 한 세대 전 두 배 크기 모델인 젬마 3 27B를 주요 벤치마크에서 앞선다고 소개됨
라이선스 변화도 중요함
- 젬마 3까지는 구글 자체 약관이었지만, 젬마 4부터 아파치 2.0으로 전환됨
- 상업적 이용 제약이 줄면서 기업 입장에서 검토하기 쉬워짐
- 출시 이틀 뒤에는 메모리를 더 줄인 양자화 인지 학습 버전까지 공개돼 온디바이스 쪽을 밀고 있음

디퓨전젬마: 언어 모델이 한 토큰씩 써야 한다는 상식을 흔듦

디퓨전젬마는 이번 주 가장 실험적인 모델로 소개됨
- 젬마 4 26B A4B의 전문가 혼합 구조를 물려받아 총 252억 파라미터 중 38억 개만 활성화해 추론함
- 진짜 핵심은 크기가 아니라 생성 방식임
- 텍스트를 한 토큰씩 순서대로 쓰지 않고, 256토큰 캔버스를 여러 번 다듬는 이산 디퓨전 방식으로 생성함
속도 수치가 꽤 세게 나옴
- H100 GPU 기준 저배치에서 초당 1100토큰 이상이라고 소개됨
- 실시간 챗봇, 음성 에이전트, 코드 생성, 대량 문서 요약처럼 지연시간이 중요한 워크로드에 매력적임
- 256K 컨텍스트, 추론 모드, 네이티브 함수 호출, 35개 이상 언어도 지원한다고 함
의미는 “빠른 모델 하나 나왔다”보다 큼
- 디퓨전 언어 모델은 그동안 학계 실험에 가까웠는데, 구글이 실전 투입 가능한 오픈웨이트 형태로 꺼냈다는 점이 큼
- 아파치 2.0 라이선스라 상업적 이용 제약도 없음
- 공개 직후 llama.cpp 계열 양자화 버전까지 나오며 커뮤니티 반응도 빠름

스페이스 쪽도 실무 냄새가 강함

이데오그램 4는 ‘글씨 잘 쓰는 이미지 생성 모델’ 쪽에서 눈에 띔
- 93억 파라미터 디퓨전 트랜스포머로, 회사 창사 이후 처음 가중치를 공개함
- 구조화된 JSON 프롬프트로 바운딩 박스 레이아웃과 컬러 팔레트를 제어할 수 있음
- 전문 디자이너 10인 블라인드 평가에서 1위 비율 47.9%로 구글 나노 바나나 2의 30.0%를 앞섰다고 소개됨
- 다만 허깅페이스 게이트 방식이라 기업 도입 전 라이선스 확인이 필요함
TripoSplat은 사진 한 장에서 3D 가우시안 스플랫을 만드는 데모임
- 최대 26만2144개 가우시안을 사용자가 조절할 수 있음
- 코드가 파일 2개, 약 2000줄로 정리돼 있고 의존성이 적어 파이프라인 이식이 쉬운 편이라고 소개됨
- 라이선스는 MIT라 상업적 활용 장벽이 낮음
젬마 4 12B 데모는 브라우저에서 멀티모달 모델을 바로 테스트하는 입구임
- 회의 녹음, 문서 사진, 짧은 영상 같은 데이터를 올려 실제 업무에 맞는지 볼 수 있음
- 설치 전에 “우리 데이터로 쓸 만한가”를 빠르게 확인하는 용도로 좋음

그래서 개발팀이 봐야 할 포인트

첫 번째는 라이선스임
- 오픈웨이트라고 다 같은 오픈이 아님
- 젬마·디퓨전젬마는 아파치 2.0, TripoSplat은 MIT, LocateAnything은 비상업 라이선스, 이데오그램은 게이트 다운로드처럼 조건이 제각각임
- 기업 도입의 첫 단계는 벤치마크가 아니라 라이선스 실사라는 말이 꽤 현실적임
두 번째는 아키텍처 효율임
- 젬마 4 12B는 인코더를 줄여 배포 부담을 낮춤
- 디퓨전젬마는 순차 생성 병목을 병렬화로 건드림
- “더 큰 GPU를 사자”가 아니라 “구조를 바꿔서 싸게 돌리자”는 방향이 선명해짐
세 번째는 그라운딩임
- 비전 AI가 단순 설명에서 좌표 기반 행동으로 넘어가면 GUI 에이전트, 로봇, 스마트팩토리, 자율주행까지 연결됨
- 한국 제조업과 자동화 현장에서도 꽤 직접적인 함의가 있음
- 챗봇이 말하는 비서였다면, 좌표를 아는 모델은 실제 화면과 공간에서 행동하는 에이전트의 기반에 가까움

기술 맥락

이번 글에서 반복되는 선택은 “모델을 더 크게 만들 것인가, 구조를 바꿔 효율을 얻을 것인가”예요. LocateAnything은 좌표 생성을 병렬화했고, 젬마 4 12B는 인코더를 덜어냈고, 디퓨전젬마는 토큰 생성 방식을 바꿨어요. 다 같은 방향, 즉 추론 비용과 배포 부담을 줄이려는 시도예요.
비전 그라운딩이 중요한 이유는 AI가 실제 행동을 하려면 위치를 알아야 하기 때문이에요. 이미지를 설명하는 것만으로는 버튼을 누르거나 물건을 집을 수 없거든요. 그래서 바운딩 박스와 좌표를 정확히 찍는 능력이 GUI 에이전트, 로봇, 자율주행의 공통 기반이 돼요.
인코더 프리 멀티모달은 배포 관점에서 의미가 커요. 별도 인코더가 줄어들면 모델 패키징, 메모리 사용, 런타임 복잡도가 내려갈 수 있거든요. 기사에서 16GB 노트북 구동이 강조되는 것도 클라우드에 민감 데이터를 올리지 않고 로컬에서 처리하려는 수요와 맞닿아 있어요.
오픈웨이트 도입에서 라이선스가 먼저 나오는 이유도 실무적이에요. 연구용으로는 아무 문제 없어 보여도 제품에 넣는 순간 비상업 조항이나 게이트 조건이 리스크가 될 수 있어요. 그래서 성능표를 보기 전에 우리 사용 사례가 허용되는지부터 확인해야 해요.

이 글의 핵심은 ‘오픈소스 모델이 많아졌다’가 아니라 빅테크가 폐쇄형 API의 장점을 오픈웨이트로 빠르게 흘려보내고 있다는 점이다. 국내 팀은 모델 랭킹만 볼 게 아니라 라이선스, 로컬 구동, 데이터 반출 리스크, 추론 비용까지 같이 평가해야 한다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

이번 주 허깅페이스는 ‘가리키고, 듣고, 그리듯 쓰는’ 오픈웨이트 모델 전쟁이었다

요약

핵심 포인트

핵심 개념

분석

이번 주 핵심은 ‘빅테크의 오픈웨이트 총공세’임

엔비디아 LocateAnything-3B: 말하면 좌표로 찍어주는 모델

구글 젬마 4 12B: 인코더를 줄여 노트북으로 끌어내림

디퓨전젬마: 언어 모델이 한 토큰씩 써야 한다는 상식을 흔듦

스페이스 쪽도 실무 냄새가 강함

그래서 개발팀이 봐야 할 포인트

기술 맥락

인사이트

댓글

댓글

이번 주 허깅페이스는 ‘가리키고, 듣고, 그리듯 쓰는’ 오픈웨이트 모델 전쟁이었다

요약

핵심 포인트

핵심 개념

분석

이번 주 핵심은 ‘빅테크의 오픈웨이트 총공세’임

엔비디아 LocateAnything-3B: 말하면 좌표로 찍어주는 모델

구글 젬마 4 12B: 인코더를 줄여 노트북으로 끌어내림

디퓨전젬마: 언어 모델이 한 토큰씩 써야 한다는 상식을 흔듦

스페이스 쪽도 실무 냄새가 강함

그래서 개발팀이 봐야 할 포인트

기술 맥락

인사이트

댓글

댓글

관련 기사