---
title: "허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다"
published: 2026-05-14T22:05:04.109Z
canonical: https://jeff.news/article/2711
---
# 허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다

이번 주 허깅페이스 트렌드는 소비자용 그래픽처리장치, 모바일, 중앙처리장치에서 돌아가는 경량 AI 모델들이 주인공이다. 영상 생성, 멀티모달, 추론, 음성 합성까지 ‘큰 모델’보다 ‘가까운 모델’ 쪽으로 무게가 옮겨가는 흐름이 뚜렷하다.

## 이번 주 핵심은 ‘작아졌는데 세졌다’임

- 허깅페이스 이번 주 트렌드는 거대 클라우드 모델보다, 개인 장비에서 돌아가는 AI 쪽으로 확 기울었음
  - 소비자용 그래픽처리장치 한 장으로 영상 생성, 13억 파라미터짜리 모바일 멀티모달, 99만이 아니라 9900만 파라미터 온디바이스 음성 합성까지 나옴
  - 기사 표현대로라면 ‘구름 위 AI’가 아니라 ‘책상 위 AI’가 주인공이 된 주간임

- 설퍼-2-베이스는 오픈소스 영상 생성 쪽에서 꽤 센 신호를 냈음
  - 라이트릭스의 엘티엑스 2.3 비디오 파운데이션 모델을 커뮤니티가 90억 파라미터 규모로 파인튜닝한 텍스트·이미지 투 비디오 모델임
  - 출시 직후 월 다운로드 50만 회를 넘겼고, 디스틸드 로라를 쓰면 16기가바이트 비디오램 보급형 그래픽처리장치에서도 돌아감
  - 컴파이유아이 워크플로우 4종과 큐원 3.5 90억 기반 프롬프트 인핸서까지 묶어서, ‘영상 생성 파이프라인’을 통째로 내려받는 느낌에 가까움

> [!IMPORTANT]
> 16기가바이트 비디오램에서 영상 생성 모델을 돌릴 수 있다는 건 꽤 큼. 팀 단위 프로토타이핑, 광고 콘티, 게임 시네마틱 시안 같은 작업이 클라우드 비용 없이 로컬로 내려올 수 있다는 얘기라서.

- 다만 설퍼-2-베이스는 자유도가 높은 만큼 책임도 같이 넘어옴
  - 라이선스는 엘티엑스 2 커뮤니티 라이선스라 상업 이용 조건을 봐야 함
  - 상용 모델보다 콘텐츠 필터가 느슨하다는 설명도 있어서, 회사에서 쓰려면 가이드라인과 후처리 필터를 별도로 잡아야 함

## 모바일 멀티모달은 13억 파라미터까지 내려옴

- 미니시피엠 브이 4.6은 이름은 미니인데 성능은 꽤 공격적임
  - 칭화대 엔엘피랩과 모델베스트의 오픈비엠비가 만든 모델이고, 파라미터는 13억 개 수준임
  - 시그립2 비전 인코더와 큐원3.5 8억 언어 모델 백본을 조합해 이미지, 여러 장의 이미지, 영상까지 처리함

- 벤치마크에서 재미있는 포인트는 ‘더 적게 말하고도 더 잘 맞힌다’는 쪽임
  - 아티피셜 어낼리시스 인텔리전스 인덱스에서 13점을 기록해 큐원3.5 8억 계열의 10점, 11점을 앞섬
  - 같은 평가에서 출력 토큰을 19배에서 43배까지 적게 썼다는 점이 진짜 포인트임
  - 4배·16배 시각 토큰 압축 모드를 골라 쓸 수 있어서 품질과 속도 사이를 조절할 수 있음

- 온디바이스 배포까지 열려 있다는 게 개발자 입장에선 더 중요함
  - 아이오에스, 안드로이드, 하모니 운영체제용 엣지 배포 코드가 오픈소스로 공개됨
  - 모델 크기는 약 2.6기가바이트이고, 라이선스는 아파치 2.0이라 상업 활용 부담도 낮음
  - 사진 자동 분류, 문서 광학문자인식, 보안 카메라 분석, 시각장애인 보조, 모바일 교육 앱 같은 곳에 바로 붙일 만함

## 엔비디아 없는 학습 인프라도 등장함

- 자야1-8비는 모델 자체보다 ‘어디서 학습했나’가 더 시끄러운 케이스임
  - 미국 스타트업 자이프라가 만든 80억급 추론 모델인데, 엔비디아 칩 없이 에이엠디 인스팅트 엠아이300엑스 그래픽처리장치 1024장으로 사전학습부터 강화학습까지 끝냈다고 밝힘
  - 에이엠디 펜산도 폴라라 인터커넥트까지 포함한 풀스택 학습 사례라, 엔비디아 중심 학습 인프라에 균열이 생길 수 있다는 신호로 읽힘

- 구조도 ‘큰데 매번 다 쓰지는 않는’ 효율형임
  - 총 84억 파라미터 중 추론 때 활성화되는 건 7억6000만 개뿐임
  - 압축 컨볼루셔널 어텐션으로 키-값 캐시를 일반 어텐션 대비 8배 줄였고, 전문가 혼합 라우팅과 학습된 잔차 스케일링도 적용함
  - 수학, 코딩, 논리 추론 벤치마크에서 훨씬 큰 미스트랄 스몰 4, 딥시크 브이3.2와 견준다는 설명이 붙음

- 한국 개발자와 반도체 업계에도 꽤 직접적인 얘기임
  - 국내도 신경망처리장치, 메모리, 모바일, 온디바이스 쪽 이해관계가 크기 때문임
  - ‘엔비디아 그래픽처리장치가 없으면 대형 학습은 어렵다’는 전제가 조금씩 흔들리면, 인프라 선택지가 넓어짐

## 콘텐츠 생성도 개인 작업실로 내려오는 중

- 픽살3디는 사진 한 장을 3차원 모델로 바꾸는 텐센트 데모임
  - 시그라프 2026 채택 논문 기반이고, 픽셀을 3차원 공간으로 역투영해 입력 사진 시점과 맞는 메시를 만든다는 점을 강조함
  - 물리기반렌더링 텍스처까지 뽑아 게임 에셋, 이커머스 3차원 카탈로그, 건축 시각화에 바로 연결될 수 있음

- 슈퍼토닉 3는 한국 슈퍼톤이 낸 9900만 파라미터 온디바이스 음성 합성 모델임
  - 31개 언어를 지원하고, 기존 슈퍼토닉 2의 5개 언어보다 폭이 6배 이상 넓어짐
  - 오닉스 런타임 기반이라 중앙처리장치만으로도 빠르게 돌고, 라즈베리파이나 전자책 단말기에서 비행기 모드로 실시간 합성이 가능하다고 함
  - 모델 크기는 약 305메가바이트라 다운로드와 시작 부담도 작음

- 하이드림 오원 이미지는 90억 파라미터 이미지 생성 모델인데, ‘프롬프트를 알아서 정리하는’ 쪽이 흥미로움
  - 픽셀, 텍스트, 작업 조건을 하나의 토큰 공간에 넣는 통합 트랜스포머 구조를 썼다고 설명함
  - 젠이벌 점수 0.90으로 지피티 이미지 2의 0.89를 앞섰고, 최대 2048×2048 해상도 생성도 지원함
  - 한 줄 프롬프트를 레이아웃, 표정, 텍스트 위치까지 고려한 프롬프트로 다듬는 에이전트가 들어감

---

## 기술 맥락

- 이번 기사에서 제일 중요한 선택은 ‘더 큰 모델’이 아니라 ‘쓸 수 있는 모델’ 쪽이에요. 영상 생성, 멀티모달, 음성 합성 모두 클라우드 대형 모델만 바라보면 비용과 지연시간, 데이터 반출 문제가 계속 따라오거든요.

- 설퍼-2-베이스나 미니시피엠 브이 4.6이 눈에 띄는 이유는 성능 수치만이 아니에요. 컴파이유아이 워크플로우, 모바일 배포 코드, 아파치 2.0 라이선스처럼 실제 개발자가 제품에 붙일 때 필요한 주변 조건까지 같이 내려왔기 때문이에요.

- 자야1-8비의 에이엠디 학습 사례는 인프라 의사결정 쪽에서 의미가 커요. 모델 팀이 엔비디아 생태계만 전제로 잡지 않아도 되는 사례가 늘어나면, 그래픽처리장치 수급이나 비용 때문에 막히던 실험이 다른 경로로 열릴 수 있거든요.

- 온디바이스 모델은 개인정보와 지연시간 문제를 동시에 줄이는 쪽으로 힘이 있어요. 사진, 음성, 문서처럼 민감한 입력을 서버로 보내지 않아도 되고, 네트워크가 불안정한 환경에서도 기능이 살아남기 때문이에요.

## 핵심 포인트

- 설퍼-2-베이스는 16기가바이트 비디오램 그래픽처리장치에서도 영상 생성이 가능하고 월 다운로드 50만 회를 넘겼다
- 미니시피엠 브이 4.6은 13억 파라미터로 더 큰 비전 모델들을 제치며 모바일 멀티모달 모델의 기준을 끌어올렸다
- 자야1-8비는 엔비디아 없이 에이엠디 그래픽처리장치 1024장으로 학습된 추론 모델이라는 점에서 인프라 쪽 파장이 크다

## 인사이트

개발자 입장에서는 ‘모델이 얼마나 큰가’보다 ‘내 장비에서 굴릴 수 있는가’가 더 중요한 질문이 되고 있다. 특히 한국은 모바일, 메모리, 온디바이스, 콘텐츠 제작 생태계가 강해서 이 흐름을 남 얘기로 보기 어렵다.
