본문으로 건너뛰기
피드

허깅페이스에 쏟아진 빅테크 오픈웨이트 AI 모델들

ai-ml 약 10분
vote
0
댓글
북마크

이번 허깅페이스 트렌드는 엔비디아의 비주얼 그라운딩 모델, 구글의 인코더 프리 멀티모달 모델, 디퓨전 방식 언어모델이 동시에 주목받은 한 주였다. 오픈웨이트 경쟁이 스타트업만의 무기가 아니라 빅테크의 본격 전장으로 넘어가고 있다는 해석이 나온다.

  • 1

    엔비디아 LocateAnything-3B는 자연어 지시를 이미지 좌표와 바운딩 박스로 변환하는 비주얼 그라운딩 모델

  • 2

    구글 Gemma 4 12B는 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 단일 트랜스포머로 처리

  • 3

    구글 DiffusionGemma는 자기회귀 대신 이산 디퓨전 방식으로 텍스트를 생성하며 H100 기준 초당 1100토큰 이상을 제시

  • 4

    Ideogram 4, TripoSplat 등 생성형 이미지와 3D 쪽에서도 오픈웨이트·실사용 데모가 확산 중

빅테크 오픈웨이트가 한 주에 몰아서 쏟아짐

  • 이번 허깅페이스 트렌드는 한 문장으로 정리하면 “AI가 가리키고, 듣고, 그리듯 쓴다”에 가까움

    • 엔비디아는 말로 지시하면 이미지 속 좌표를 찍는 모델을 공개함
    • 구글은 별도 비전·오디오 인코더 없이 텍스트·이미지·오디오·비디오를 처리하는 젬마 4 12B를 내놨음
    • 또 구글은 언어모델이 한 토큰씩 쓰는 방식을 버리고, 디퓨전처럼 텍스트를 생성하는 디퓨전젬마도 공개함
  • 흐름 자체가 꽤 중요함. 오픈웨이트가 더 이상 스타트업의 생존 전략만은 아님

    • 엔비디아, 구글 같은 빅테크가 연구용·상업용 모델을 허깅페이스에 계속 올리고 있음
    • 이데오그램처럼 폐쇄형 API 중심이던 이미지 생성 기업도 창사 첫 가중치 공개에 나섬
    • 다만 아파치 2.0, MIT, 연구 전용, 게이트 다운로드처럼 라이선스 조건은 제각각이라 기업 도입 전 실사가 필수임

중요

> “오픈”이라고 다 같은 오픈이 아님. 젬마·디퓨전젬마처럼 상업 이용이 가능한 경우도 있지만, LocateAnything처럼 연구용으로 제한되는 모델도 있어서 라이선스 확인이 성능 비교보다 먼저임.

엔비디아 LocateAnything-3B: 말하면 좌표로 답하는 모델

  • LocateAnything-3B는 이미지 속 객체를 자연어로 찾아 바운딩 박스나 점 좌표로 찍어주는 비주얼 그라운딩 모델임

    • “빨간 셔츠를 입은 사람들을 찾아줘”라고 하면 해당 위치를 좌표로 반환하는 식
    • 엔비디아 이글 비전언어모델 패밀리의 30억 파라미터 모델이고, 5월 26일 공개 후 보름 남짓 만에 월 다운로드 11만 회를 넘김
  • 핵심 기술은 병렬 박스 디코딩(PBD)임

    • 기존 방식은 박스 좌표를 x1, y1, x2, y2처럼 토큰 하나씩 순서대로 생성해서 객체가 많아질수록 느려짐
    • PBD는 박스 하나를 통째로 병렬 예측해 기존 방식 대비 최대 2.5배 처리량을 낸다고 설명됨
    • 학습 데이터도 큼. 1200만 장 이미지, 1억3800만 건 질의, 7억8500만 개 바운딩 박스를 사용함
  • 활용처는 “무엇이 보이는가”보다 “어디에 있는가”가 중요한 곳임

    • 화면 속 버튼을 찾아 클릭하는 GUI 에이전트
    • 로봇·자율주행의 시각 인지
    • 문서 레이아웃 분석과 OCR 위치 검출
    • 산업 검사, 관제 영상 분석, 데이터셋 자동 라벨링

구글 Gemma 4 12B: 인코더 없이 보고 듣는 노트북용 멀티모달

  • Gemma 4 12B는 구글 딥마인드가 6월 3일 공개한 미드사이즈 멀티모달 모델임

    • 텍스트, 이미지, 오디오, 비디오를 단일 트랜스포머로 처리하는 인코더 프리 구조를 채택함
    • 기존 멀티모달 모델이 비전 인코더와 오디오 인코더를 따로 붙이는 것과 다른 방향임
    • 16GB 메모리 노트북에서 구동된다는 점을 강하게 내세움
  • 스펙은 꽤 공격적임

    • 256K 토큰 컨텍스트와 140개 이상 언어를 지원함
    • 추론 모드와 네이티브 함수 호출도 포함됨
    • 젬마 4부터는 상업적 이용 제약이 없는 아파치 2.0 라이선스로 전환됨
  • 구글 발표 기준 성능도 체급 대비 높게 제시됨

    • 문서이해(DocVQA) 94.9점
    • 수학 경시(AIME 2026) 77.5점
    • 시각 수학(MATH-Vision) 79.7점
    • 한 세대 전 27B 모델을 주요 벤치마크에서 앞서고, 같은 세대 26B MoE 모델에 근접한다고 설명됨

DiffusionGemma: 한 토큰씩 안 쓰고 ‘한 폭씩’ 생성하는 언어모델

  • 디퓨전젬마는 이번 기사에서 제일 실험적인 모델임

    • 구글 딥마인드가 6월 10일 공개했고, 젬마 4 26B A4B의 혼합전문가 구조를 물려받음
    • 총 252억 파라미터 중 38억 개만 활성화해 추론함
    • 라이선스는 아파치 2.0이라 상업적 이용에 제약이 없음
  • 진짜 포인트는 생성 방식임

    • 기존 언어모델은 대부분 한 토큰씩 차례로 생성하는 자기회귀 방식임
    • 디퓨전젬마는 256토큰짜리 캔버스를 놓고, 이미지 생성 AI처럼 흐릿한 초안을 여러 번 다듬어 완성하는 이산 디퓨전 방식을 사용함
    • H100 GPU FP8 기준 저배치에서 초당 1100토큰 이상을 제시함. 이건 체감상 “빠르다” 수준을 넘어서 워크로드 설계를 바꿀 수 있는 수치임

ℹ️참고

> 디퓨전 언어모델은 그동안 실험실 느낌이 강했는데, 구글이 오픈웨이트로 실전형 모델을 꺼낸 점이 포인트임. 자기회귀 일변도였던 텍스트 생성 방식에 균열이 생기는 장면임.

  • 활용처는 지연 시간이 중요한 텍스트 생성 워크로드임
    • 실시간 챗봇과 음성 에이전트
    • 코드 자동 생성
    • OCR·PDF 파싱 같은 문서 이해
    • 대량 문서 요약 파이프라인

스페이스 쪽도 실사용 데모가 강해짐

  • Ideogram 4는 글씨를 잘 그리는 이미지 생성 모델로 주목받음

    • 구글 브레인 출신 연구자들이 만든 이데오그램이 창사 이후 처음으로 모델 가중치를 공개함
    • 93억 파라미터 디퓨전 트랜스포머(DiT)이고, 텍스트가 들어간 포스터·로고·광고 비주얼에 강점이 있음
    • 전문 디자이너 10인 블라인드 타이포그래피 평가에서 1위 선택 비율 47.9%를 기록해 구글 나노 바나나 2의 30.0%를 앞섬
  • TripoSplat은 사진 한 장을 3D 가우시안 스플랫으로 바꾸는 데모임

    • 사용자가 생성할 가우시안 개수를 최대 26만2144개까지 조절할 수 있음
    • 품질과 렌더링 비용 사이의 균형을 직접 고를 수 있다는 뜻
    • 코드가 파일 2개, 약 2000줄로 정리돼 있고, 라이선스는 MIT라 상업적 활용 제약이 없음
  • Gemma 4 12B 공식 스페이스는 멀티모달 모델을 브라우저에서 바로 만져보는 창구임

    • 텍스트뿐 아니라 이미지, 오디오, 비디오를 올려 대화할 수 있음
    • 회의 녹음 요약, 표가 들어간 문서 사진 정리, 짧은 영상 설명 같은 테스트를 설치 없이 해볼 수 있음
    • 도입 전에 “우리 데이터에 쓸 만한가”를 빠르게 확인하기 좋은 형태임

그래서 개발자에게 뭐가 중요하냐면

  • 첫째, 오픈웨이트 모델을 고를 때 라이선스가 첫 관문이 됨

    • 아파치 2.0이나 MIT는 비교적 자유롭지만, 연구 전용이나 게이트 다운로드 모델은 제품 적용 전에 조건을 따져야 함
    • 이제 모델 비교표에 정확도, 지연 시간, 비용뿐 아니라 라이선스와 배포 제약도 같이 들어가야 함
  • 둘째, AI 아키텍처의 효율 경쟁이 본격화되고 있음

    • Gemma 4 12B는 인코더를 줄여 배포 부담을 낮춤
    • DiffusionGemma는 생성 방식을 바꿔 병렬화와 속도를 노림
    • 더 큰 GPU를 쌓는 싸움만이 아니라, 구조를 바꿔 추론 비용을 줄이는 싸움이 커지는 중임
  • 셋째, 비전 AI가 묘사에서 행동 쪽으로 이동하고 있음

    • LocateAnything처럼 좌표를 찍는 모델은 컴퓨터 사용 에이전트, 로봇, 자율주행의 공통 기반이 될 수 있음
    • 한국처럼 제조, 로봇, 스마트팩토리, 자동차 쪽이 강한 생태계에선 꽤 직접적으로 볼 만한 흐름임

기술 맥락

  • 이번 기사에서 제일 큰 변화는 빅테크가 오픈웨이트를 실험용 홍보물이 아니라 제품 전략의 일부로 쓰기 시작했다는 점이에요. 구글은 젬마 계열을 아파치 2.0으로 풀고, 엔비디아는 상용 모델에 들어간 기술의 공개 버전을 내놓는 식이에요.

  • Gemma 4 12B의 인코더 프리 구조는 배포 비용을 줄이려는 선택으로 볼 수 있어요. 멀티모달 모델은 보통 이미지와 오디오 처리 부품이 따로 붙어 복잡해지는데, 이 부품을 줄이면 노트북 같은 제한된 환경에서도 돌릴 가능성이 커지거든요.

  • DiffusionGemma의 이산 디퓨전 방식은 생성 속도를 노린 선택이에요. 자기회귀 모델은 앞 토큰이 나와야 다음 토큰을 만들 수 있어서 병렬화가 어렵지만, 블록 단위로 다듬는 방식은 한 번에 처리할 여지가 더 많아요.

  • LocateAnything의 비주얼 그라운딩은 에이전트가 실제 화면이나 물리 세계에서 행동하기 위한 기반이에요. “무엇이 있다”를 아는 것만으로는 부족하고, 버튼이 어디 있는지, 물체가 어느 좌표에 있는지를 알아야 클릭하거나 집을 수 있거든요.

  • 그래서 국내 개발팀이 볼 포인트는 모델 순위 자체보다 적용 조건이에요. 라이선스, 온디바이스 가능성, 지연 시간, 좌표 추론 정확도처럼 실제 제품에 넣을 때 문제가 되는 항목을 같이 봐야 해요.

이번 흐름의 진짜 재미는 성능 수치보다 아키텍처의 상식이 흔들린다는 점이다. 멀티모달은 인코더를 줄이고, 언어모델은 한 토큰씩 쓰는 방식을 버리며, 비전 모델은 설명을 넘어 좌표를 직접 찍는 쪽으로 가고 있다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

플랜바이, 건축 설계 AI 자동화 들고 북미 AEC 시장 공략

플랜바이테크놀로지스가 AIA 컨퍼런스 온 아키텍처 & 디자인 2026에서 건축 시각화 플랫폼 플라나와 외관 설계 워크플로우 플랫폼 플래드를 북미 시장에 공개한다. 클라우드 AI 렌더링, 노드 기반 설계, 위성 지도 연동을 앞세워 반복 시안 작업과 고비용 렌더링 문제를 줄이겠다는 그림이다.

ai-ml

AI 인프라 사이클, 한국은 이제 ‘모델’보다 ‘공장’을 봐야 한다

AI 투자는 단순한 서버 증설이 아니라 지능·추론·코딩 비용을 낮추는 새 생산함수에 대한 설비투자로 봐야 한다는 분석이다. 미국 중심으로 시작된 GPU·데이터센터 투자 사이클이 한국에서는 HBM, 전력·냉각, 통신, 클라우드, SI, 로봇·자동화까지 확장될 수 있다는 게 핵심이다. 다만 실제 투자 사이클로 인정받으려면 전력 수전, GPU 조달, 앵커 테넌트 확보가 확인돼야 한다.

ai-ml

비즈니스 AI, 결국 승부는 모델보다 데이터 품질

생성형 AI를 업무에 쓰려면 프롬프트만 잘 쓰는 걸로는 부족하고, AI가 참고하는 데이터의 품질과 범위를 관리해야 한다는 내용이다. 최신 반도체, 서버, 알고리즘보다 먼저 봐야 할 건 AI가 무엇을 학습하고 어떤 맥락을 보고 답하는지라는 점을 짚는다.

ai-ml

AI가 화면 밖으로 나왔다, 인간형 로봇 공장 투입이 본격화되는 중

챗봇과 이미지 생성 중심이던 AI 투자 열기가 로봇, 자율주행, 물류 자동화 같은 현실 세계로 옮겨가고 있다는 분석이 나왔다. 2026년 상반기 로봇 기업 투자액은 558억 달러로 이미 전년도 연간 기록의 거의 두 배에 달했고, BMW·토요타·아마존·테슬라·엔비디아가 전면에 서 있다.

ai-ml

어렵던 블록체인, 이제 AI 비서가 붙는 중

블록체인은 관심도 면에서 AI에 밀린 것처럼 보이지만, 디지털 자산의 보유와 이전을 기록하는 인프라 역할은 여전히 남아 있어. 문제는 지갑, 시드 문구, 서명, 수수료 같은 사용 경험이 너무 어렵다는 점이고, AI가 이 복잡한 절차를 사람 말로 풀어주는 인터페이스가 될 수 있다는 내용이야.