---
title: "허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시"
published: 2026-05-07T21:05:03.704Z
canonical: https://jeff.news/article/2457
---
# 허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시

이번 허깅페이스 트렌드는 긴 컨텍스트, 로컬 영상 생성, 개인정보 보호가 한꺼번에 전면으로 나온 주였어. DeepSeek-V4-Pro는 100만 토큰 컨텍스트와 줄어든 KV 캐시로 장기 실행 에이전트를 겨냥했고, Sulphur-2-base는 9B 오픈웨이트로 소비자용 GPU 영상 생성을 밀고 있어. 오픈AI Privacy Filter는 민감 데이터를 외부로 보내기 전에 로컬에서 지우는 흐름을 보여줬다는 점이 꽤 상징적이야.

- 이번 주 허깅페이스 흐름은 한 줄로 정리하면 ‘AI가 더 길게 보고, 더 가까운 기기에서 직접 돈다’는 쪽임
  - DeepSeek-V4-Pro는 100만 토큰 컨텍스트로 장기 실행 에이전트를 노림
  - Sulphur-2-base는 9B 규모 오픈웨이트로 로컬 텍스트-영상 생성을 밀고 있음
  - 오픈AI Privacy Filter는 챗봇이 아니라 개인정보 마스킹 모델이라는 점이 포인트

- DeepSeek-V4-Pro는 숫자부터 좀 세게 나옴
  - 총 파라미터는 1.6T지만, 실제 활성 파라미터는 49B인 MoE 구조
  - 책 여러 권 분량에 해당하는 100만 토큰 컨텍스트를 단일 패스로 처리하는 걸 목표로 함
  - 폐쇄형 API 전용이 아니라 가중치를 받아 쓸 수 있는 오픈웨이트 모델이라는 점도 큼

- 핵심은 ‘긴 입력을 받는다’가 아니라 ‘에이전트가 덜 끊기게 만든다’에 가까움
  - 기존 자율 코딩 에이전트는 컨텍스트가 차거나 KV 캐시가 GPU 메모리를 잡아먹으면서 쉽게 흔들림
  - DeepSeek는 압축 희소 어텐션(CSA)과 헤비 압축 어텐션(HCA)을 층마다 교차 배치해 이 문제를 줄였다고 설명함
  - 100만 토큰 환경에서 단일 토큰 추론 연산량은 V3.2 대비 27%, KV 캐시는 10% 수준까지 낮췄다는 수치가 핵심임

> [!IMPORTANT]
> DeepSeek-V4-Pro의 진짜 메시지는 ‘컨텍스트 100만 토큰’ 자랑이 아니라, 긴 작업을 오래 끌고 가는 에이전트 인프라를 겨냥했다는 데 있음.

- 코딩 벤치마크도 꽤 공격적으로 제시됨
  - PyTorch, CUDA, Rust, C++을 포함한 30개 내부 R&D 코딩 과제에서 V4-Pro-Max가 67% 통과율을 기록
  - 기사 기준 Claude Sonnet 4.5의 47%보다 높고, Claude Opus 4.5의 70%에 근접한 수치로 소개됨
  - 거대 코드베이스 분석, 리팩터링, 법률·의료·재무 문서 분석, 대규모 RAG에 맞는 모델로 포지셔닝함

- Sulphur-2-base는 ‘로컬 영상 생성’ 쪽에서 눈에 띄는 모델임
  - 텍스트 한 줄을 넣으면 짧은 영상을 만드는 9B 텍스트-영상 모델
  - Lightricks의 LTX-2.3 영상 생성 엔진을 기반으로 미세조정된 오픈웨이트 모델임
  - 프롬프트 인핸서, 디스틸드 LoRA, ComfyUI 워크플로까지 같이 제공해 바로 돌려보는 쪽에 힘을 줬음

- 여기서 중요한 건 데모 화려함보다 비용 구조임
  - Sora, Kling, Veo 같은 폐쇄형 영상 AI는 구독형 서비스 중심인데, Sulphur-2-base는 로컬 GPU 실행을 전제로 함
  - 디스틸드 LoRA를 쓰면 추론 단계가 줄어 RTX 4090 같은 소비자용 GPU에서도 영상 생성이 가능하다고 소개됨
  - 광고 시안, 교육용 짧은 영상, 숏폼 콘텐츠, 캠페인 무드 영상처럼 ‘빠르게 시각화’가 필요한 곳에 맞음

> [!WARNING]
> 베이스 모델은 일반 영상 생성용이지만, 커뮤니티 파생 모델 중에는 성인 콘텐츠 등 특정 용도로 튜닝된 것도 있어 기업 도입 땐 출력 검수와 안전 필터가 같이 필요함.

- 오픈AI Privacy Filter는 의외로 ‘작지만 실무적인’ 모델임
  - 1.5B 파라미터, 활성 파라미터 50M 수준의 토큰 분류 모델
  - 사람 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호 등 8개 개인정보 카테고리를 탐지
  - 라이선스는 Apache 2.0이라 상업적 활용도 가능한 쪽으로 열려 있음

- 구조도 GPT식 생성 모델과 다름
  - 토큰을 하나씩 생성하는 게 아니라, 입력 전체를 한 번에 훑고 라벨링함
  - 이후 제약된 비터비(Viterbi) 디코딩으로 개인정보 영역을 일관되게 잡아냄
  - PII-Masking-300k 벤치마크에서 기본 96%, 보정 버전 97.43% F1 점수를 기록했다고 소개됨

- 이 모델의 의미는 ‘서버에 올리기 전에 내 기기에서 먼저 지운다’는 데 있음
  - 소비자용 GPU에서는 초당 1500 토큰, CPU FP32 환경에서도 초당 200~400 토큰 처리 가능
  - ChatGPT, Claude, NotebookLM에 민감 문서를 넣기 전 이름·주소·계좌번호를 먼저 가릴 수 있음
  - 의료, 법률, 금융, 공공 쪽에서 AI 도입을 막던 개인정보 리스크를 줄이는 실용적인 조각임

- 허깅페이스 Spaces 쪽에서도 같은 흐름이 보임
  - Talkie 1930은 1931년 이전 영어 텍스트 2600억 토큰만 학습한 13B 모델로, 데이터의 시대성이 모델 사고에 미치는 영향을 실험하기 좋음
  - ML Intern은 허깅페이스 생태계에서 논문, 데이터셋, 컴퓨팅 자원에 접근해 ML 작업을 수행하는 자율 에이전트 데모임
  - Privacy Filter WebGPU는 개인정보 마스킹을 브라우저 안에서 처리해 입력 문장이 서버로 나가지 않게 함

- 전체적으로 보면 AI 경쟁 축이 꽤 분명해짐
  - 첫째, 컨텍스트 경쟁은 에이전트 운영 안정성 경쟁으로 넘어가는 중
  - 둘째, 텍스트-이미지를 지나 텍스트-영상 생성도 로컬 실행 가능한 방향으로 내려오는 중
  - 셋째, 온디바이스 프라이버시는 기업 AI 도입의 기본 전제처럼 자리 잡기 시작함

---

## 기술 맥락

- DeepSeek-V4-Pro에서 중요한 선택은 100만 토큰 자체보다 그 길이를 버티는 어텐션 구조예요. 에이전트가 코드베이스, 로그, 문서, 도구 호출 기록을 오래 들고 가려면 KV Cache 비용이 터지거든요.

- MoE 구조도 같은 맥락이에요. 전체 모델 크기는 1.6T로 키우되 매번 49B만 활성화하면, 모델 용량과 추론 비용 사이에서 현실적인 타협점을 만들 수 있어요.

- Sulphur-2-base는 폐쇄형 영상 생성 API와 다른 방향을 잡았어요. 품질 최상단 경쟁보다는 RTX 4090 같은 로컬 장비에서 워크플로를 직접 만질 수 있게 하는 쪽이라, 개발자와 제작자가 실험 비용을 줄이기 좋아요.

- Privacy Filter는 기업 AI 도입에서 꽤 실전적인 조각이에요. 민감 문서를 LLM에 넣기 전에 로컬에서 PII를 지우면, 모델 성능보다 먼저 부딪히는 보안 승인 문제를 줄일 수 있거든요.

## 핵심 포인트

- DeepSeek-V4-Pro는 1.6T 총 파라미터, 49B 활성 파라미터, 100만 토큰 컨텍스트를 내세운 MoE 모델
- Sulphur-2-base는 9B 텍스트-영상 오픈웨이트 모델로 RTX 4090급 소비자용 GPU 활용을 겨냥
- 오픈AI Privacy Filter는 1.5B 파라미터 모델로 개인정보 탐지 F1 96~97.43%를 기록
- AI 흐름이 단순 챗봇에서 장시간 에이전트, 로컬 생성, 온디바이스 보안으로 이동 중

## 인사이트

개발자 입장에선 ‘더 큰 모델’보다 ‘내 코드베이스와 문서를 오래 붙잡고 안정적으로 일하는 모델’이 더 중요해지는 흐름이 보여. 동시에 영상 생성과 개인정보 필터링이 로컬 환경으로 내려오면서, 인프라와 보안 설계까지 같이 봐야 하는 단계로 넘어가는 중이야.
