허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다

ai-ml 2026-05-14 약 8분

 tags

#on-device-ai #video-generation #multimodal #moe #tts

vote

북마크

이번 주 허깅페이스 트렌드는 소비자용 그래픽처리장치, 모바일, 중앙처리장치에서 돌아가는 경량 AI 모델들이 주인공이다. 영상 생성, 멀티모달, 추론, 음성 합성까지 ‘큰 모델’보다 ‘가까운 모델’ 쪽으로 무게가 옮겨가는 흐름이 뚜렷하다.

1
설퍼-2-베이스는 16기가바이트 비디오램 그래픽처리장치에서도 영상 생성이 가능하고 월 다운로드 50만 회를 넘겼다
2
미니시피엠 브이 4.6은 13억 파라미터로 더 큰 비전 모델들을 제치며 모바일 멀티모달 모델의 기준을 끌어올렸다
3
자야1-8비는 엔비디아 없이 에이엠디 그래픽처리장치 1024장으로 학습된 추론 모델이라는 점에서 인프라 쪽 파장이 크다

이번 주 핵심은 ‘작아졌는데 세졌다’임

허깅페이스 이번 주 트렌드는 거대 클라우드 모델보다, 개인 장비에서 돌아가는 AI 쪽으로 확 기울었음
- 소비자용 그래픽처리장치 한 장으로 영상 생성, 13억 파라미터짜리 모바일 멀티모달, 99만이 아니라 9900만 파라미터 온디바이스 음성 합성까지 나옴
- 기사 표현대로라면 ‘구름 위 AI’가 아니라 ‘책상 위 AI’가 주인공이 된 주간임
설퍼-2-베이스는 오픈소스 영상 생성 쪽에서 꽤 센 신호를 냈음
- 라이트릭스의 엘티엑스 2.3 비디오 파운데이션 모델을 커뮤니티가 90억 파라미터 규모로 파인튜닝한 텍스트·이미지 투 비디오 모델임
- 출시 직후 월 다운로드 50만 회를 넘겼고, 디스틸드 로라를 쓰면 16기가바이트 비디오램 보급형 그래픽처리장치에서도 돌아감
- 컴파이유아이 워크플로우 4종과 큐원 3.5 90억 기반 프롬프트 인핸서까지 묶어서, ‘영상 생성 파이프라인’을 통째로 내려받는 느낌에 가까움

❗중요

> 16기가바이트 비디오램에서 영상 생성 모델을 돌릴 수 있다는 건 꽤 큼. 팀 단위 프로토타이핑, 광고 콘티, 게임 시네마틱 시안 같은 작업이 클라우드 비용 없이 로컬로 내려올 수 있다는 얘기라서.

다만 설퍼-2-베이스는 자유도가 높은 만큼 책임도 같이 넘어옴
- 라이선스는 엘티엑스 2 커뮤니티 라이선스라 상업 이용 조건을 봐야 함
- 상용 모델보다 콘텐츠 필터가 느슨하다는 설명도 있어서, 회사에서 쓰려면 가이드라인과 후처리 필터를 별도로 잡아야 함

모바일 멀티모달은 13억 파라미터까지 내려옴

미니시피엠 브이 4.6은 이름은 미니인데 성능은 꽤 공격적임
- 칭화대 엔엘피랩과 모델베스트의 오픈비엠비가 만든 모델이고, 파라미터는 13억 개 수준임
- 시그립2 비전 인코더와 큐원3.5 8억 언어 모델 백본을 조합해 이미지, 여러 장의 이미지, 영상까지 처리함
벤치마크에서 재미있는 포인트는 ‘더 적게 말하고도 더 잘 맞힌다’는 쪽임
- 아티피셜 어낼리시스 인텔리전스 인덱스에서 13점을 기록해 큐원3.5 8억 계열의 10점, 11점을 앞섬
- 같은 평가에서 출력 토큰을 19배에서 43배까지 적게 썼다는 점이 진짜 포인트임
- 4배·16배 시각 토큰 압축 모드를 골라 쓸 수 있어서 품질과 속도 사이를 조절할 수 있음
온디바이스 배포까지 열려 있다는 게 개발자 입장에선 더 중요함
- 아이오에스, 안드로이드, 하모니 운영체제용 엣지 배포 코드가 오픈소스로 공개됨
- 모델 크기는 약 2.6기가바이트이고, 라이선스는 아파치 2.0이라 상업 활용 부담도 낮음
- 사진 자동 분류, 문서 광학문자인식, 보안 카메라 분석, 시각장애인 보조, 모바일 교육 앱 같은 곳에 바로 붙일 만함

엔비디아 없는 학습 인프라도 등장함

자야1-8비는 모델 자체보다 ‘어디서 학습했나’가 더 시끄러운 케이스임
- 미국 스타트업 자이프라가 만든 80억급 추론 모델인데, 엔비디아 칩 없이 에이엠디 인스팅트 엠아이300엑스 그래픽처리장치 1024장으로 사전학습부터 강화학습까지 끝냈다고 밝힘
- 에이엠디 펜산도 폴라라 인터커넥트까지 포함한 풀스택 학습 사례라, 엔비디아 중심 학습 인프라에 균열이 생길 수 있다는 신호로 읽힘
구조도 ‘큰데 매번 다 쓰지는 않는’ 효율형임
- 총 84억 파라미터 중 추론 때 활성화되는 건 7억6000만 개뿐임
- 압축 컨볼루셔널 어텐션으로 키-값 캐시를 일반 어텐션 대비 8배 줄였고, 전문가 혼합 라우팅과 학습된 잔차 스케일링도 적용함
- 수학, 코딩, 논리 추론 벤치마크에서 훨씬 큰 미스트랄 스몰 4, 딥시크 브이3.2와 견준다는 설명이 붙음
한국 개발자와 반도체 업계에도 꽤 직접적인 얘기임
- 국내도 신경망처리장치, 메모리, 모바일, 온디바이스 쪽 이해관계가 크기 때문임
- ‘엔비디아 그래픽처리장치가 없으면 대형 학습은 어렵다’는 전제가 조금씩 흔들리면, 인프라 선택지가 넓어짐

콘텐츠 생성도 개인 작업실로 내려오는 중

픽살3디는 사진 한 장을 3차원 모델로 바꾸는 텐센트 데모임
- 시그라프 2026 채택 논문 기반이고, 픽셀을 3차원 공간으로 역투영해 입력 사진 시점과 맞는 메시를 만든다는 점을 강조함
- 물리기반렌더링 텍스처까지 뽑아 게임 에셋, 이커머스 3차원 카탈로그, 건축 시각화에 바로 연결될 수 있음
슈퍼토닉 3는 한국 슈퍼톤이 낸 9900만 파라미터 온디바이스 음성 합성 모델임
- 31개 언어를 지원하고, 기존 슈퍼토닉 2의 5개 언어보다 폭이 6배 이상 넓어짐
- 오닉스 런타임 기반이라 중앙처리장치만으로도 빠르게 돌고, 라즈베리파이나 전자책 단말기에서 비행기 모드로 실시간 합성이 가능하다고 함
- 모델 크기는 약 305메가바이트라 다운로드와 시작 부담도 작음
하이드림 오원 이미지는 90억 파라미터 이미지 생성 모델인데, ‘프롬프트를 알아서 정리하는’ 쪽이 흥미로움
- 픽셀, 텍스트, 작업 조건을 하나의 토큰 공간에 넣는 통합 트랜스포머 구조를 썼다고 설명함
- 젠이벌 점수 0.90으로 지피티 이미지 2의 0.89를 앞섰고, 최대 2048×2048 해상도 생성도 지원함
- 한 줄 프롬프트를 레이아웃, 표정, 텍스트 위치까지 고려한 프롬프트로 다듬는 에이전트가 들어감

기술 맥락

이번 기사에서 제일 중요한 선택은 ‘더 큰 모델’이 아니라 ‘쓸 수 있는 모델’ 쪽이에요. 영상 생성, 멀티모달, 음성 합성 모두 클라우드 대형 모델만 바라보면 비용과 지연시간, 데이터 반출 문제가 계속 따라오거든요.
설퍼-2-베이스나 미니시피엠 브이 4.6이 눈에 띄는 이유는 성능 수치만이 아니에요. 컴파이유아이 워크플로우, 모바일 배포 코드, 아파치 2.0 라이선스처럼 실제 개발자가 제품에 붙일 때 필요한 주변 조건까지 같이 내려왔기 때문이에요.
자야1-8비의 에이엠디 학습 사례는 인프라 의사결정 쪽에서 의미가 커요. 모델 팀이 엔비디아 생태계만 전제로 잡지 않아도 되는 사례가 늘어나면, 그래픽처리장치 수급이나 비용 때문에 막히던 실험이 다른 경로로 열릴 수 있거든요.
온디바이스 모델은 개인정보와 지연시간 문제를 동시에 줄이는 쪽으로 힘이 있어요. 사진, 음성, 문서처럼 민감한 입력을 서버로 보내지 않아도 되고, 네트워크가 불안정한 환경에서도 기능이 살아남기 때문이에요.

개발자 입장에서는 ‘모델이 얼마나 큰가’보다 ‘내 장비에서 굴릴 수 있는가’가 더 중요한 질문이 되고 있다. 특히 한국은 모바일, 메모리, 온디바이스, 콘텐츠 제작 생태계가 강해서 이 흐름을 남 얘기로 보기 어렵다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다

요약

핵심 포인트

핵심 개념

분석

이번 주 핵심은 ‘작아졌는데 세졌다’임

모바일 멀티모달은 13억 파라미터까지 내려옴

엔비디아 없는 학습 인프라도 등장함

콘텐츠 생성도 개인 작업실로 내려오는 중

기술 맥락

인사이트

댓글

댓글

허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다

요약

핵심 포인트

핵심 개념

분석

이번 주 핵심은 ‘작아졌는데 세졌다’임

모바일 멀티모달은 13억 파라미터까지 내려옴

엔비디아 없는 학습 인프라도 등장함

콘텐츠 생성도 개인 작업실로 내려오는 중

기술 맥락

인사이트

댓글

댓글

관련 기사