본문으로 건너뛰기
피드

허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시

ai-ml 약 8분
vote
0
댓글
북마크

이번 허깅페이스 트렌드는 긴 컨텍스트, 로컬 영상 생성, 개인정보 보호가 한꺼번에 전면으로 나온 주였어. DeepSeek-V4-Pro는 100만 토큰 컨텍스트와 줄어든 KV 캐시로 장기 실행 에이전트를 겨냥했고, Sulphur-2-base는 9B 오픈웨이트로 소비자용 GPU 영상 생성을 밀고 있어. 오픈AI Privacy Filter는 민감 데이터를 외부로 보내기 전에 로컬에서 지우는 흐름을 보여줬다는 점이 꽤 상징적이야.

  • 1

    DeepSeek-V4-Pro는 1.6T 총 파라미터, 49B 활성 파라미터, 100만 토큰 컨텍스트를 내세운 MoE 모델

  • 2

    Sulphur-2-base는 9B 텍스트-영상 오픈웨이트 모델로 RTX 4090급 소비자용 GPU 활용을 겨냥

  • 3

    오픈AI Privacy Filter는 1.5B 파라미터 모델로 개인정보 탐지 F1 96~97.43%를 기록

  • 4

    AI 흐름이 단순 챗봇에서 장시간 에이전트, 로컬 생성, 온디바이스 보안으로 이동 중

  • 이번 주 허깅페이스 흐름은 한 줄로 정리하면 ‘AI가 더 길게 보고, 더 가까운 기기에서 직접 돈다’는 쪽임

    • DeepSeek-V4-Pro는 100만 토큰 컨텍스트로 장기 실행 에이전트를 노림
    • Sulphur-2-base는 9B 규모 오픈웨이트로 로컬 텍스트-영상 생성을 밀고 있음
    • 오픈AI Privacy Filter는 챗봇이 아니라 개인정보 마스킹 모델이라는 점이 포인트
  • DeepSeek-V4-Pro는 숫자부터 좀 세게 나옴

    • 총 파라미터는 1.6T지만, 실제 활성 파라미터는 49B인 MoE 구조
    • 책 여러 권 분량에 해당하는 100만 토큰 컨텍스트를 단일 패스로 처리하는 걸 목표로 함
    • 폐쇄형 API 전용이 아니라 가중치를 받아 쓸 수 있는 오픈웨이트 모델이라는 점도 큼
  • 핵심은 ‘긴 입력을 받는다’가 아니라 ‘에이전트가 덜 끊기게 만든다’에 가까움

    • 기존 자율 코딩 에이전트는 컨텍스트가 차거나 KV 캐시가 GPU 메모리를 잡아먹으면서 쉽게 흔들림
    • DeepSeek는 압축 희소 어텐션(CSA)과 헤비 압축 어텐션(HCA)을 층마다 교차 배치해 이 문제를 줄였다고 설명함
    • 100만 토큰 환경에서 단일 토큰 추론 연산량은 V3.2 대비 27%, KV 캐시는 10% 수준까지 낮췄다는 수치가 핵심임

중요

> DeepSeek-V4-Pro의 진짜 메시지는 ‘컨텍스트 100만 토큰’ 자랑이 아니라, 긴 작업을 오래 끌고 가는 에이전트 인프라를 겨냥했다는 데 있음.

  • 코딩 벤치마크도 꽤 공격적으로 제시됨

    • PyTorch, CUDA, Rust, C++을 포함한 30개 내부 R&D 코딩 과제에서 V4-Pro-Max가 67% 통과율을 기록
    • 기사 기준 Claude Sonnet 4.5의 47%보다 높고, Claude Opus 4.5의 70%에 근접한 수치로 소개됨
    • 거대 코드베이스 분석, 리팩터링, 법률·의료·재무 문서 분석, 대규모 RAG에 맞는 모델로 포지셔닝함
  • Sulphur-2-base는 ‘로컬 영상 생성’ 쪽에서 눈에 띄는 모델임

    • 텍스트 한 줄을 넣으면 짧은 영상을 만드는 9B 텍스트-영상 모델
    • Lightricks의 LTX-2.3 영상 생성 엔진을 기반으로 미세조정된 오픈웨이트 모델임
    • 프롬프트 인핸서, 디스틸드 LoRA, ComfyUI 워크플로까지 같이 제공해 바로 돌려보는 쪽에 힘을 줬음
  • 여기서 중요한 건 데모 화려함보다 비용 구조임

    • Sora, Kling, Veo 같은 폐쇄형 영상 AI는 구독형 서비스 중심인데, Sulphur-2-base는 로컬 GPU 실행을 전제로 함
    • 디스틸드 LoRA를 쓰면 추론 단계가 줄어 RTX 4090 같은 소비자용 GPU에서도 영상 생성이 가능하다고 소개됨
    • 광고 시안, 교육용 짧은 영상, 숏폼 콘텐츠, 캠페인 무드 영상처럼 ‘빠르게 시각화’가 필요한 곳에 맞음

⚠️주의

> 베이스 모델은 일반 영상 생성용이지만, 커뮤니티 파생 모델 중에는 성인 콘텐츠 등 특정 용도로 튜닝된 것도 있어 기업 도입 땐 출력 검수와 안전 필터가 같이 필요함.

  • 오픈AI Privacy Filter는 의외로 ‘작지만 실무적인’ 모델임

    • 1.5B 파라미터, 활성 파라미터 50M 수준의 토큰 분류 모델
    • 사람 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호 등 8개 개인정보 카테고리를 탐지
    • 라이선스는 Apache 2.0이라 상업적 활용도 가능한 쪽으로 열려 있음
  • 구조도 GPT식 생성 모델과 다름

    • 토큰을 하나씩 생성하는 게 아니라, 입력 전체를 한 번에 훑고 라벨링함
    • 이후 제약된 비터비(Viterbi) 디코딩으로 개인정보 영역을 일관되게 잡아냄
    • PII-Masking-300k 벤치마크에서 기본 96%, 보정 버전 97.43% F1 점수를 기록했다고 소개됨
  • 이 모델의 의미는 ‘서버에 올리기 전에 내 기기에서 먼저 지운다’는 데 있음

    • 소비자용 GPU에서는 초당 1500 토큰, CPU FP32 환경에서도 초당 200~400 토큰 처리 가능
    • ChatGPT, Claude, NotebookLM에 민감 문서를 넣기 전 이름·주소·계좌번호를 먼저 가릴 수 있음
    • 의료, 법률, 금융, 공공 쪽에서 AI 도입을 막던 개인정보 리스크를 줄이는 실용적인 조각임
  • 허깅페이스 Spaces 쪽에서도 같은 흐름이 보임

    • Talkie 1930은 1931년 이전 영어 텍스트 2600억 토큰만 학습한 13B 모델로, 데이터의 시대성이 모델 사고에 미치는 영향을 실험하기 좋음
    • ML Intern은 허깅페이스 생태계에서 논문, 데이터셋, 컴퓨팅 자원에 접근해 ML 작업을 수행하는 자율 에이전트 데모임
    • Privacy Filter WebGPU는 개인정보 마스킹을 브라우저 안에서 처리해 입력 문장이 서버로 나가지 않게 함
  • 전체적으로 보면 AI 경쟁 축이 꽤 분명해짐

    • 첫째, 컨텍스트 경쟁은 에이전트 운영 안정성 경쟁으로 넘어가는 중
    • 둘째, 텍스트-이미지를 지나 텍스트-영상 생성도 로컬 실행 가능한 방향으로 내려오는 중
    • 셋째, 온디바이스 프라이버시는 기업 AI 도입의 기본 전제처럼 자리 잡기 시작함

기술 맥락

  • DeepSeek-V4-Pro에서 중요한 선택은 100만 토큰 자체보다 그 길이를 버티는 어텐션 구조예요. 에이전트가 코드베이스, 로그, 문서, 도구 호출 기록을 오래 들고 가려면 KV Cache 비용이 터지거든요.

  • MoE 구조도 같은 맥락이에요. 전체 모델 크기는 1.6T로 키우되 매번 49B만 활성화하면, 모델 용량과 추론 비용 사이에서 현실적인 타협점을 만들 수 있어요.

  • Sulphur-2-base는 폐쇄형 영상 생성 API와 다른 방향을 잡았어요. 품질 최상단 경쟁보다는 RTX 4090 같은 로컬 장비에서 워크플로를 직접 만질 수 있게 하는 쪽이라, 개발자와 제작자가 실험 비용을 줄이기 좋아요.

  • Privacy Filter는 기업 AI 도입에서 꽤 실전적인 조각이에요. 민감 문서를 LLM에 넣기 전에 로컬에서 PII를 지우면, 모델 성능보다 먼저 부딪히는 보안 승인 문제를 줄일 수 있거든요.

개발자 입장에선 ‘더 큰 모델’보다 ‘내 코드베이스와 문서를 오래 붙잡고 안정적으로 일하는 모델’이 더 중요해지는 흐름이 보여. 동시에 영상 생성과 개인정보 필터링이 로컬 환경으로 내려오면서, 인프라와 보안 설계까지 같이 봐야 하는 단계로 넘어가는 중이야.

댓글

댓글

댓글을 불러오는 중...

ai-ml

오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개

오픈AI가 브로드컴과 함께 만든 첫 자체 추론 프로세서 ‘할라페뇨’를 공개했다. 아직 테스트 단계지만, 실시간 코딩 모델 같은 추론 워크로드에서 기존 최고 수준 대안보다 전력 대비 성능이 크게 좋다는 초기 결과를 내세웠다.

ai-ml

가트너 “네오클라우드, 2030년 AI 클라우드 시장 20% 먹는다”

생성형 AI 확산으로 GPU 기반 고성능 컴퓨팅 수요가 폭증하면서 AI 전용 클라우드 사업자인 네오클라우드가 커지고 있다는 분석이 나왔어. 가트너는 2030년 약 2,670억 달러 규모 AI 클라우드 시장에서 네오클라우드가 20%를 차지할 수 있다고 봤어. GPU 확보, 가격 경쟁력, 데이터 주권 대응이 핵심 포인트야.

ai-ml

스페이스X, 오픈소스 AI 스타트업에 초대형 컴퓨팅 파워 판다

리플렉션 AI가 스페이스X의 대형 데이터센터 인프라를 쓰기 위해 2029년까지 최대 63억달러 규모 계약을 맺었다는 내용이다. 월 1억5000만달러를 내고 엔비디아 GB300 기반 컴퓨팅 자원을 확보하는 구조이며, 스페이스X는 남는 AI 인프라를 외부 고객에게 파는 플랫폼 사업으로 확장하려는 흐름을 보인다. 오픈소스 AI 모델을 내세우는 리플렉션 AI가 정부·안보 시장에서 빠르게 커지고 있다는 점도 포인트다.

ai-ml

AI가 청소년의 ‘생각 훈련’을 건너뛰게 만든다는 경고

이 글은 생성형 AI가 청소년과 주니어에게 편리한 도구를 넘어 사고력 발달을 약화시킬 수 있다는 우려를 다뤄. 핵심은 AI 사용 자체가 문제라기보다, AI가 단일한 관계와 정보 통로가 되고 글쓰기·판단·고민의 과정을 대신해버릴 때 인지 훈련 기회가 사라진다는 점이야.

ai-ml

성남시, AI로 고독사 위험과 고령자 주차 문제를 같이 실증한다

성남시니어산업혁신센터가 AI 돌봄 자동화 플랫폼과 AI 스마트 주차관리 시스템의 실증기관으로 선정됐어. 각각 14억2500만 원, 30억 원 규모 사업이고, 고령자 돌봄과 교통약자 주차 편의라는 생활밀착형 문제를 AI로 풀어보겠다는 내용이야.