본문으로 건너뛰기
피드

이번 주 허깅페이스는 ‘가리키고, 듣고, 그리듯 쓰는’ 오픈웨이트 모델 전쟁이었다

ai-ml 약 10분
vote
0
댓글
북마크

이번 주 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 젬마 4 12B, 디퓨전 방식 언어 모델 디퓨전젬마가 이끌었다. 공통점은 빅테크가 오픈웨이트로 성능뿐 아니라 배포 효율, 속도, 라이선스 전략까지 밀어붙이고 있다는 점이다. 한국 개발자 입장에서는 모델 성능보다 라이선스, 온디바이스 가능성, 추론 비용 구조를 같이 봐야 한다.

  • 1

    엔비디아 LocateAnything-3B는 자연어 지시를 이미지 속 좌표와 바운딩 박스로 바꾸는 비주얼 그라운딩 모델이며 출시 보름 만에 월 다운로드 11만 회를 넘겼다

  • 2

    구글 젬마 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리하고 16GB 노트북 구동을 목표로 한다

  • 3

    디퓨전젬마는 256토큰 블록을 디퓨전 방식으로 생성해 H100 기준 초당 1100토큰 이상을 기록했다고 소개됐다

  • 4

    오픈웨이트 모델이라도 아파치 2.0, MIT, 비상업 라이선스, 게이트 다운로드처럼 조건이 제각각이라 기업 도입 전 라이선스 확인이 필수다

  • 5

    비전 AI는 단순 묘사에서 좌표 기반 그라운딩으로, 언어 모델은 순차 생성에서 병렬 생성으로 아키텍처 상식이 흔들리는 중이다

이번 주 핵심은 ‘빅테크의 오픈웨이트 총공세’임

  • 허깅페이스 트렌딩에서 이번 주 눈에 띈 건 엔비디아와 구글이 한꺼번에 꽤 센 모델들을 공개했다는 점임

    • 엔비디아는 자연어로 말하면 이미지 속 좌표를 찍어주는 LocateAnything-3B를 내놨음
    • 구글은 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 처리하는 젬마 4 12B를 공개함
    • 또 텍스트를 한 토큰씩 쓰는 대신 디퓨전 방식으로 ‘한 블록씩 그리는’ 디퓨전젬마도 등장함
  • 이 흐름을 단순히 “오픈소스 모델이 많아졌다”로 보면 좀 아까움

    • 빅테크가 폐쇄형 API에서만 보이던 능력을 오픈웨이트 형태로 풀고 있음
    • 성능 경쟁뿐 아니라 배포 크기, 추론 속도, 라이선스, 온디바이스 구동까지 같이 움직임
    • 국내 개발팀 입장에선 이제 모델 랭킹보다 “우리 제품에 합법적으로, 싸게, 안정적으로 붙일 수 있나”가 더 중요해짐

엔비디아 LocateAnything-3B: 말하면 좌표로 찍어주는 모델

  • LocateAnything-3B는 비전 AI의 초점을 ‘무엇이 보이나’에서 ‘정확히 어디 있나’로 옮김

    • “빨간 셔츠 입은 사람들을 찾아줘”라고 하면 이미지 속 해당 위치를 바운딩 박스로 답하는 식
    • 엔비디아 이글 비전언어모델 패밀리의 30억 파라미터 모델임
    • 출시 보름 정도 만에 월 다운로드 11만 회를 넘기며 허깅페이스 트렌딩 상위권에 올랐음
  • 핵심은 병렬 박스 디코딩임

    • 기존 방식은 박스 좌표를 토큰처럼 하나씩 순서대로 생성해서 객체가 많아질수록 느려짐
    • 병렬 박스 디코딩은 박스 하나를 통째로 한 번에 예측해 최대 2.5배 처리량을 낸다고 소개됨
    • 학습 데이터도 1200만 장 이미지, 1억3800만 건 질의, 7억8500만 개 바운딩 박스 규모로 꽤 큼

⚠️주의

> LocateAnything-3B는 좋아 보여도 상업용 제품에 바로 붙이면 안 됨. 엔비디아 비상업 라이선스라 학술·비영리 연구 목적만 허용되고, 백본인 큐원2.5도 별도 연구용 라이선스를 따름.

  • 활용처는 꽤 직관적임
    • 화면 속 버튼을 찾아 누르는 GUI 에이전트
    • 로봇이나 자율주행의 시각 인지
    • 문서 레이아웃 분석, OCR 위치 검출, 산업 검사, 관제 영상 분석
    • 즉 “어디에 있는지”가 중요한 모든 작업에 맞음

구글 젬마 4 12B: 인코더를 줄여 노트북으로 끌어내림

  • 젬마 4 12B는 멀티모달 모델의 흔한 부속을 덜어낸 게 포인트임

    • 기존 멀티모달 모델은 보통 비전 인코더, 오디오 인코더를 붙여 이미지와 소리를 모델이 이해할 수 있게 바꿈
    • 젬마 4 12B는 텍스트·이미지·오디오·비디오를 단일 트랜스포머에서 처리하는 인코더 프리 구조를 택함
    • 그래서 16GB 메모리 노트북에서 구동되는 미드사이즈 모델 포지션을 노림
  • 스펙도 꽤 공격적임

    • 256K 토큰 컨텍스트와 140개 이상 언어를 지원함
    • 추론 모드와 네이티브 함수 호출도 포함됨
    • 구글 자체 발표 기준 문서이해 94.9점, AIME 2026 77.5점, 시각 수학 79.7점을 기록함
    • 한 세대 전 두 배 크기 모델인 젬마 3 27B를 주요 벤치마크에서 앞선다고 소개됨
  • 라이선스 변화도 중요함

    • 젬마 3까지는 구글 자체 약관이었지만, 젬마 4부터 아파치 2.0으로 전환됨
    • 상업적 이용 제약이 줄면서 기업 입장에서 검토하기 쉬워짐
    • 출시 이틀 뒤에는 메모리를 더 줄인 양자화 인지 학습 버전까지 공개돼 온디바이스 쪽을 밀고 있음

디퓨전젬마: 언어 모델이 한 토큰씩 써야 한다는 상식을 흔듦

  • 디퓨전젬마는 이번 주 가장 실험적인 모델로 소개됨

    • 젬마 4 26B A4B의 전문가 혼합 구조를 물려받아 총 252억 파라미터 중 38억 개만 활성화해 추론함
    • 진짜 핵심은 크기가 아니라 생성 방식임
    • 텍스트를 한 토큰씩 순서대로 쓰지 않고, 256토큰 캔버스를 여러 번 다듬는 이산 디퓨전 방식으로 생성함
  • 속도 수치가 꽤 세게 나옴

    • H100 GPU 기준 저배치에서 초당 1100토큰 이상이라고 소개됨
    • 실시간 챗봇, 음성 에이전트, 코드 생성, 대량 문서 요약처럼 지연시간이 중요한 워크로드에 매력적임
    • 256K 컨텍스트, 추론 모드, 네이티브 함수 호출, 35개 이상 언어도 지원한다고 함
  • 의미는 “빠른 모델 하나 나왔다”보다 큼

    • 디퓨전 언어 모델은 그동안 학계 실험에 가까웠는데, 구글이 실전 투입 가능한 오픈웨이트 형태로 꺼냈다는 점이 큼
    • 아파치 2.0 라이선스라 상업적 이용 제약도 없음
    • 공개 직후 llama.cpp 계열 양자화 버전까지 나오며 커뮤니티 반응도 빠름

스페이스 쪽도 실무 냄새가 강함

  • 이데오그램 4는 ‘글씨 잘 쓰는 이미지 생성 모델’ 쪽에서 눈에 띔

    • 93억 파라미터 디퓨전 트랜스포머로, 회사 창사 이후 처음 가중치를 공개함
    • 구조화된 JSON 프롬프트로 바운딩 박스 레이아웃과 컬러 팔레트를 제어할 수 있음
    • 전문 디자이너 10인 블라인드 평가에서 1위 비율 47.9%로 구글 나노 바나나 2의 30.0%를 앞섰다고 소개됨
    • 다만 허깅페이스 게이트 방식이라 기업 도입 전 라이선스 확인이 필요함
  • TripoSplat은 사진 한 장에서 3D 가우시안 스플랫을 만드는 데모임

    • 최대 26만2144개 가우시안을 사용자가 조절할 수 있음
    • 코드가 파일 2개, 약 2000줄로 정리돼 있고 의존성이 적어 파이프라인 이식이 쉬운 편이라고 소개됨
    • 라이선스는 MIT라 상업적 활용 장벽이 낮음
  • 젬마 4 12B 데모는 브라우저에서 멀티모달 모델을 바로 테스트하는 입구임

    • 회의 녹음, 문서 사진, 짧은 영상 같은 데이터를 올려 실제 업무에 맞는지 볼 수 있음
    • 설치 전에 “우리 데이터로 쓸 만한가”를 빠르게 확인하는 용도로 좋음

그래서 개발팀이 봐야 할 포인트

  • 첫 번째는 라이선스임

    • 오픈웨이트라고 다 같은 오픈이 아님
    • 젬마·디퓨전젬마는 아파치 2.0, TripoSplat은 MIT, LocateAnything은 비상업 라이선스, 이데오그램은 게이트 다운로드처럼 조건이 제각각임
    • 기업 도입의 첫 단계는 벤치마크가 아니라 라이선스 실사라는 말이 꽤 현실적임
  • 두 번째는 아키텍처 효율임

    • 젬마 4 12B는 인코더를 줄여 배포 부담을 낮춤
    • 디퓨전젬마는 순차 생성 병목을 병렬화로 건드림
    • “더 큰 GPU를 사자”가 아니라 “구조를 바꿔서 싸게 돌리자”는 방향이 선명해짐
  • 세 번째는 그라운딩임

    • 비전 AI가 단순 설명에서 좌표 기반 행동으로 넘어가면 GUI 에이전트, 로봇, 스마트팩토리, 자율주행까지 연결됨
    • 한국 제조업과 자동화 현장에서도 꽤 직접적인 함의가 있음
    • 챗봇이 말하는 비서였다면, 좌표를 아는 모델은 실제 화면과 공간에서 행동하는 에이전트의 기반에 가까움

기술 맥락

  • 이번 글에서 반복되는 선택은 “모델을 더 크게 만들 것인가, 구조를 바꿔 효율을 얻을 것인가”예요. LocateAnything은 좌표 생성을 병렬화했고, 젬마 4 12B는 인코더를 덜어냈고, 디퓨전젬마는 토큰 생성 방식을 바꿨어요. 다 같은 방향, 즉 추론 비용과 배포 부담을 줄이려는 시도예요.

  • 비전 그라운딩이 중요한 이유는 AI가 실제 행동을 하려면 위치를 알아야 하기 때문이에요. 이미지를 설명하는 것만으로는 버튼을 누르거나 물건을 집을 수 없거든요. 그래서 바운딩 박스와 좌표를 정확히 찍는 능력이 GUI 에이전트, 로봇, 자율주행의 공통 기반이 돼요.

  • 인코더 프리 멀티모달은 배포 관점에서 의미가 커요. 별도 인코더가 줄어들면 모델 패키징, 메모리 사용, 런타임 복잡도가 내려갈 수 있거든요. 기사에서 16GB 노트북 구동이 강조되는 것도 클라우드에 민감 데이터를 올리지 않고 로컬에서 처리하려는 수요와 맞닿아 있어요.

  • 오픈웨이트 도입에서 라이선스가 먼저 나오는 이유도 실무적이에요. 연구용으로는 아무 문제 없어 보여도 제품에 넣는 순간 비상업 조항이나 게이트 조건이 리스크가 될 수 있어요. 그래서 성능표를 보기 전에 우리 사용 사례가 허용되는지부터 확인해야 해요.

이 글의 핵심은 ‘오픈소스 모델이 많아졌다’가 아니라 빅테크가 폐쇄형 API의 장점을 오픈웨이트로 빠르게 흘려보내고 있다는 점이다. 국내 팀은 모델 랭킹만 볼 게 아니라 라이선스, 로컬 구동, 데이터 반출 리스크, 추론 비용까지 같이 평가해야 한다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

네이버클라우드, 전장에 바로 쓰는 국방 AI 전략 공개

네이버클라우드가 국방 분야 AX 전략으로 소버린 AI 기반 전력화 모델을 공개했다. 핵심은 텍스트·이미지·음성·영상을 하나의 모델에서 학습하는 옴니모달 AI와, 개발 이후 실제 작전 현장 적용까지 이어지는 FDE 중심 운영 체계다.

ai-ml

NHN, 5년 만에 CTO 부활…AI 클라우드 투자 회수전 시작

NHN이 2021년 이후 비어 있던 그룹 CTO 자리를 다시 만들고 양철웅 신임 CTO를 선임했다. 클라우드·보안·AI 인프라 투자를 그룹 AX와 외부 클라우드 매출로 연결해야 하는 게 핵심 과제다. 특히 B200 GPU 7656장, 연구개발비 비중 6.77%, 1분기 현금성 자산 감소 같은 숫자가 이번 인사의 무게를 보여준다.

ai-ml

GMI 클라우드와 마그나 AI, 소버린 AI 팩토리 글로벌 확장 추진

GMI 클라우드와 마그나 AI가 글로벌 소버린 AI 팩토리 네트워크를 공동 설계·배포·확장하는 전략적 파트너십을 맺었다. 초기 프로젝트는 말레이시아, 벨기에, 루마니아에 집중하고, 중동과 아프리카 배포도 개발 중이다.

ai-ml

대구·울산·경북 5개 SW중심대, 구글 클라우드 AI 에이전트 챌린지 마무리

경북대, 대구대, 영남대, 울산대, 한동대가 공동으로 구글 클라우드 AI 에이전트 챌린지를 진행하고 본선과 시상식을 마쳤다. 학생들은 5주간 교육을 받고 산업 현장 문제를 해결하는 AI 에이전트 프로젝트를 기획·개발했다.

ai-ml

정부는 GPU 9,704장, 엔비디아는 국내 대기업과 AI 팩토리 판 키운다

과기정통부가 네이버클라우드, 삼성SDS, 엘리스그룹과 2조 800억 원 규모로 엔비디아 베라루빈 2,016장과 B300 7,688장을 확보한다. 동시에 엔비디아는 삼성, SK, 네이버, LG와 제조·로봇·데이터센터까지 묶는 AI 팩토리 연합을 만들고 있고, 아마존의 물 사용량 공개는 AI 인프라 경쟁이 전력과 냉각 효율 싸움으로 넘어갔다는 신호다.