본문으로 건너뛰기
피드

허깅페이스 이번 주 트렌드, AI가 클라우드에서 책상 위로 내려왔다

ai-ml 약 8분
vote
0
댓글
북마크

이번 주 허깅페이스 트렌드는 소비자용 그래픽처리장치, 모바일, 중앙처리장치에서 돌아가는 경량 AI 모델들이 주인공이다. 영상 생성, 멀티모달, 추론, 음성 합성까지 ‘큰 모델’보다 ‘가까운 모델’ 쪽으로 무게가 옮겨가는 흐름이 뚜렷하다.

  • 1

    설퍼-2-베이스는 16기가바이트 비디오램 그래픽처리장치에서도 영상 생성이 가능하고 월 다운로드 50만 회를 넘겼다

  • 2

    미니시피엠 브이 4.6은 13억 파라미터로 더 큰 비전 모델들을 제치며 모바일 멀티모달 모델의 기준을 끌어올렸다

  • 3

    자야1-8비는 엔비디아 없이 에이엠디 그래픽처리장치 1024장으로 학습된 추론 모델이라는 점에서 인프라 쪽 파장이 크다

이번 주 핵심은 ‘작아졌는데 세졌다’임

  • 허깅페이스 이번 주 트렌드는 거대 클라우드 모델보다, 개인 장비에서 돌아가는 AI 쪽으로 확 기울었음

    • 소비자용 그래픽처리장치 한 장으로 영상 생성, 13억 파라미터짜리 모바일 멀티모달, 99만이 아니라 9900만 파라미터 온디바이스 음성 합성까지 나옴
    • 기사 표현대로라면 ‘구름 위 AI’가 아니라 ‘책상 위 AI’가 주인공이 된 주간임
  • 설퍼-2-베이스는 오픈소스 영상 생성 쪽에서 꽤 센 신호를 냈음

    • 라이트릭스의 엘티엑스 2.3 비디오 파운데이션 모델을 커뮤니티가 90억 파라미터 규모로 파인튜닝한 텍스트·이미지 투 비디오 모델임
    • 출시 직후 월 다운로드 50만 회를 넘겼고, 디스틸드 로라를 쓰면 16기가바이트 비디오램 보급형 그래픽처리장치에서도 돌아감
    • 컴파이유아이 워크플로우 4종과 큐원 3.5 90억 기반 프롬프트 인핸서까지 묶어서, ‘영상 생성 파이프라인’을 통째로 내려받는 느낌에 가까움

중요

> 16기가바이트 비디오램에서 영상 생성 모델을 돌릴 수 있다는 건 꽤 큼. 팀 단위 프로토타이핑, 광고 콘티, 게임 시네마틱 시안 같은 작업이 클라우드 비용 없이 로컬로 내려올 수 있다는 얘기라서.

  • 다만 설퍼-2-베이스는 자유도가 높은 만큼 책임도 같이 넘어옴
    • 라이선스는 엘티엑스 2 커뮤니티 라이선스라 상업 이용 조건을 봐야 함
    • 상용 모델보다 콘텐츠 필터가 느슨하다는 설명도 있어서, 회사에서 쓰려면 가이드라인과 후처리 필터를 별도로 잡아야 함

모바일 멀티모달은 13억 파라미터까지 내려옴

  • 미니시피엠 브이 4.6은 이름은 미니인데 성능은 꽤 공격적임

    • 칭화대 엔엘피랩과 모델베스트의 오픈비엠비가 만든 모델이고, 파라미터는 13억 개 수준임
    • 시그립2 비전 인코더와 큐원3.5 8억 언어 모델 백본을 조합해 이미지, 여러 장의 이미지, 영상까지 처리함
  • 벤치마크에서 재미있는 포인트는 ‘더 적게 말하고도 더 잘 맞힌다’는 쪽임

    • 아티피셜 어낼리시스 인텔리전스 인덱스에서 13점을 기록해 큐원3.5 8억 계열의 10점, 11점을 앞섬
    • 같은 평가에서 출력 토큰을 19배에서 43배까지 적게 썼다는 점이 진짜 포인트임
    • 4배·16배 시각 토큰 압축 모드를 골라 쓸 수 있어서 품질과 속도 사이를 조절할 수 있음
  • 온디바이스 배포까지 열려 있다는 게 개발자 입장에선 더 중요함

    • 아이오에스, 안드로이드, 하모니 운영체제용 엣지 배포 코드가 오픈소스로 공개됨
    • 모델 크기는 약 2.6기가바이트이고, 라이선스는 아파치 2.0이라 상업 활용 부담도 낮음
    • 사진 자동 분류, 문서 광학문자인식, 보안 카메라 분석, 시각장애인 보조, 모바일 교육 앱 같은 곳에 바로 붙일 만함

엔비디아 없는 학습 인프라도 등장함

  • 자야1-8비는 모델 자체보다 ‘어디서 학습했나’가 더 시끄러운 케이스임

    • 미국 스타트업 자이프라가 만든 80억급 추론 모델인데, 엔비디아 칩 없이 에이엠디 인스팅트 엠아이300엑스 그래픽처리장치 1024장으로 사전학습부터 강화학습까지 끝냈다고 밝힘
    • 에이엠디 펜산도 폴라라 인터커넥트까지 포함한 풀스택 학습 사례라, 엔비디아 중심 학습 인프라에 균열이 생길 수 있다는 신호로 읽힘
  • 구조도 ‘큰데 매번 다 쓰지는 않는’ 효율형임

    • 총 84억 파라미터 중 추론 때 활성화되는 건 7억6000만 개뿐임
    • 압축 컨볼루셔널 어텐션으로 키-값 캐시를 일반 어텐션 대비 8배 줄였고, 전문가 혼합 라우팅과 학습된 잔차 스케일링도 적용함
    • 수학, 코딩, 논리 추론 벤치마크에서 훨씬 큰 미스트랄 스몰 4, 딥시크 브이3.2와 견준다는 설명이 붙음
  • 한국 개발자와 반도체 업계에도 꽤 직접적인 얘기임

    • 국내도 신경망처리장치, 메모리, 모바일, 온디바이스 쪽 이해관계가 크기 때문임
    • ‘엔비디아 그래픽처리장치가 없으면 대형 학습은 어렵다’는 전제가 조금씩 흔들리면, 인프라 선택지가 넓어짐

콘텐츠 생성도 개인 작업실로 내려오는 중

  • 픽살3디는 사진 한 장을 3차원 모델로 바꾸는 텐센트 데모임

    • 시그라프 2026 채택 논문 기반이고, 픽셀을 3차원 공간으로 역투영해 입력 사진 시점과 맞는 메시를 만든다는 점을 강조함
    • 물리기반렌더링 텍스처까지 뽑아 게임 에셋, 이커머스 3차원 카탈로그, 건축 시각화에 바로 연결될 수 있음
  • 슈퍼토닉 3는 한국 슈퍼톤이 낸 9900만 파라미터 온디바이스 음성 합성 모델임

    • 31개 언어를 지원하고, 기존 슈퍼토닉 2의 5개 언어보다 폭이 6배 이상 넓어짐
    • 오닉스 런타임 기반이라 중앙처리장치만으로도 빠르게 돌고, 라즈베리파이나 전자책 단말기에서 비행기 모드로 실시간 합성이 가능하다고 함
    • 모델 크기는 약 305메가바이트라 다운로드와 시작 부담도 작음
  • 하이드림 오원 이미지는 90억 파라미터 이미지 생성 모델인데, ‘프롬프트를 알아서 정리하는’ 쪽이 흥미로움

    • 픽셀, 텍스트, 작업 조건을 하나의 토큰 공간에 넣는 통합 트랜스포머 구조를 썼다고 설명함
    • 젠이벌 점수 0.90으로 지피티 이미지 2의 0.89를 앞섰고, 최대 2048×2048 해상도 생성도 지원함
    • 한 줄 프롬프트를 레이아웃, 표정, 텍스트 위치까지 고려한 프롬프트로 다듬는 에이전트가 들어감

기술 맥락

  • 이번 기사에서 제일 중요한 선택은 ‘더 큰 모델’이 아니라 ‘쓸 수 있는 모델’ 쪽이에요. 영상 생성, 멀티모달, 음성 합성 모두 클라우드 대형 모델만 바라보면 비용과 지연시간, 데이터 반출 문제가 계속 따라오거든요.

  • 설퍼-2-베이스나 미니시피엠 브이 4.6이 눈에 띄는 이유는 성능 수치만이 아니에요. 컴파이유아이 워크플로우, 모바일 배포 코드, 아파치 2.0 라이선스처럼 실제 개발자가 제품에 붙일 때 필요한 주변 조건까지 같이 내려왔기 때문이에요.

  • 자야1-8비의 에이엠디 학습 사례는 인프라 의사결정 쪽에서 의미가 커요. 모델 팀이 엔비디아 생태계만 전제로 잡지 않아도 되는 사례가 늘어나면, 그래픽처리장치 수급이나 비용 때문에 막히던 실험이 다른 경로로 열릴 수 있거든요.

  • 온디바이스 모델은 개인정보와 지연시간 문제를 동시에 줄이는 쪽으로 힘이 있어요. 사진, 음성, 문서처럼 민감한 입력을 서버로 보내지 않아도 되고, 네트워크가 불안정한 환경에서도 기능이 살아남기 때문이에요.

개발자 입장에서는 ‘모델이 얼마나 큰가’보다 ‘내 장비에서 굴릴 수 있는가’가 더 중요한 질문이 되고 있다. 특히 한국은 모바일, 메모리, 온디바이스, 콘텐츠 제작 생태계가 강해서 이 흐름을 남 얘기로 보기 어렵다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.