허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시

ai-ml 2026-05-07 약 8분

 tags

#llm #open-weight #rag #webgpu #privacy

vote

북마크

원문 보기

이번 허깅페이스 트렌드는 긴 컨텍스트, 로컬 영상 생성, 개인정보 보호가 한꺼번에 전면으로 나온 주였어. DeepSeek-V4-Pro는 100만 토큰 컨텍스트와 줄어든 KV 캐시로 장기 실행 에이전트를 겨냥했고, Sulphur-2-base는 9B 오픈웨이트로 소비자용 GPU 영상 생성을 밀고 있어. 오픈AI Privacy Filter는 민감 데이터를 외부로 보내기 전에 로컬에서 지우는 흐름을 보여줬다는 점이 꽤 상징적이야.

1
DeepSeek-V4-Pro는 1.6T 총 파라미터, 49B 활성 파라미터, 100만 토큰 컨텍스트를 내세운 MoE 모델
2
Sulphur-2-base는 9B 텍스트-영상 오픈웨이트 모델로 RTX 4090급 소비자용 GPU 활용을 겨냥
3
오픈AI Privacy Filter는 1.5B 파라미터 모델로 개인정보 탐지 F1 96~97.43%를 기록
4
AI 흐름이 단순 챗봇에서 장시간 에이전트, 로컬 생성, 온디바이스 보안으로 이동 중

이번 주 허깅페이스 흐름은 한 줄로 정리하면 ‘AI가 더 길게 보고, 더 가까운 기기에서 직접 돈다’는 쪽임
- DeepSeek-V4-Pro는 100만 토큰 컨텍스트로 장기 실행 에이전트를 노림
- Sulphur-2-base는 9B 규모 오픈웨이트로 로컬 텍스트-영상 생성을 밀고 있음
- 오픈AI Privacy Filter는 챗봇이 아니라 개인정보 마스킹 모델이라는 점이 포인트
DeepSeek-V4-Pro는 숫자부터 좀 세게 나옴
- 총 파라미터는 1.6T지만, 실제 활성 파라미터는 49B인 MoE 구조
- 책 여러 권 분량에 해당하는 100만 토큰 컨텍스트를 단일 패스로 처리하는 걸 목표로 함
- 폐쇄형 API 전용이 아니라 가중치를 받아 쓸 수 있는 오픈웨이트 모델이라는 점도 큼
핵심은 ‘긴 입력을 받는다’가 아니라 ‘에이전트가 덜 끊기게 만든다’에 가까움
- 기존 자율 코딩 에이전트는 컨텍스트가 차거나 KV 캐시가 GPU 메모리를 잡아먹으면서 쉽게 흔들림
- DeepSeek는 압축 희소 어텐션(CSA)과 헤비 압축 어텐션(HCA)을 층마다 교차 배치해 이 문제를 줄였다고 설명함
- 100만 토큰 환경에서 단일 토큰 추론 연산량은 V3.2 대비 27%, KV 캐시는 10% 수준까지 낮췄다는 수치가 핵심임

❗중요

> DeepSeek-V4-Pro의 진짜 메시지는 ‘컨텍스트 100만 토큰’ 자랑이 아니라, 긴 작업을 오래 끌고 가는 에이전트 인프라를 겨냥했다는 데 있음.

코딩 벤치마크도 꽤 공격적으로 제시됨
- PyTorch, CUDA, Rust, C++을 포함한 30개 내부 R&D 코딩 과제에서 V4-Pro-Max가 67% 통과율을 기록
- 기사 기준 Claude Sonnet 4.5의 47%보다 높고, Claude Opus 4.5의 70%에 근접한 수치로 소개됨
- 거대 코드베이스 분석, 리팩터링, 법률·의료·재무 문서 분석, 대규모 RAG에 맞는 모델로 포지셔닝함
Sulphur-2-base는 ‘로컬 영상 생성’ 쪽에서 눈에 띄는 모델임
- 텍스트 한 줄을 넣으면 짧은 영상을 만드는 9B 텍스트-영상 모델
- Lightricks의 LTX-2.3 영상 생성 엔진을 기반으로 미세조정된 오픈웨이트 모델임
- 프롬프트 인핸서, 디스틸드 LoRA, ComfyUI 워크플로까지 같이 제공해 바로 돌려보는 쪽에 힘을 줬음
여기서 중요한 건 데모 화려함보다 비용 구조임
- Sora, Kling, Veo 같은 폐쇄형 영상 AI는 구독형 서비스 중심인데, Sulphur-2-base는 로컬 GPU 실행을 전제로 함
- 디스틸드 LoRA를 쓰면 추론 단계가 줄어 RTX 4090 같은 소비자용 GPU에서도 영상 생성이 가능하다고 소개됨
- 광고 시안, 교육용 짧은 영상, 숏폼 콘텐츠, 캠페인 무드 영상처럼 ‘빠르게 시각화’가 필요한 곳에 맞음

⚠️주의

> 베이스 모델은 일반 영상 생성용이지만, 커뮤니티 파생 모델 중에는 성인 콘텐츠 등 특정 용도로 튜닝된 것도 있어 기업 도입 땐 출력 검수와 안전 필터가 같이 필요함.

오픈AI Privacy Filter는 의외로 ‘작지만 실무적인’ 모델임
- 1.5B 파라미터, 활성 파라미터 50M 수준의 토큰 분류 모델
- 사람 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호 등 8개 개인정보 카테고리를 탐지
- 라이선스는 Apache 2.0이라 상업적 활용도 가능한 쪽으로 열려 있음
구조도 GPT식 생성 모델과 다름
- 토큰을 하나씩 생성하는 게 아니라, 입력 전체를 한 번에 훑고 라벨링함
- 이후 제약된 비터비(Viterbi) 디코딩으로 개인정보 영역을 일관되게 잡아냄
- PII-Masking-300k 벤치마크에서 기본 96%, 보정 버전 97.43% F1 점수를 기록했다고 소개됨
이 모델의 의미는 ‘서버에 올리기 전에 내 기기에서 먼저 지운다’는 데 있음
- 소비자용 GPU에서는 초당 1500 토큰, CPU FP32 환경에서도 초당 200~400 토큰 처리 가능
- ChatGPT, Claude, NotebookLM에 민감 문서를 넣기 전 이름·주소·계좌번호를 먼저 가릴 수 있음
- 의료, 법률, 금융, 공공 쪽에서 AI 도입을 막던 개인정보 리스크를 줄이는 실용적인 조각임
허깅페이스 Spaces 쪽에서도 같은 흐름이 보임
- Talkie 1930은 1931년 이전 영어 텍스트 2600억 토큰만 학습한 13B 모델로, 데이터의 시대성이 모델 사고에 미치는 영향을 실험하기 좋음
- ML Intern은 허깅페이스 생태계에서 논문, 데이터셋, 컴퓨팅 자원에 접근해 ML 작업을 수행하는 자율 에이전트 데모임
- Privacy Filter WebGPU는 개인정보 마스킹을 브라우저 안에서 처리해 입력 문장이 서버로 나가지 않게 함
전체적으로 보면 AI 경쟁 축이 꽤 분명해짐
- 첫째, 컨텍스트 경쟁은 에이전트 운영 안정성 경쟁으로 넘어가는 중
- 둘째, 텍스트-이미지를 지나 텍스트-영상 생성도 로컬 실행 가능한 방향으로 내려오는 중
- 셋째, 온디바이스 프라이버시는 기업 AI 도입의 기본 전제처럼 자리 잡기 시작함

기술 맥락

DeepSeek-V4-Pro에서 중요한 선택은 100만 토큰 자체보다 그 길이를 버티는 어텐션 구조예요. 에이전트가 코드베이스, 로그, 문서, 도구 호출 기록을 오래 들고 가려면 KV Cache 비용이 터지거든요.
MoE 구조도 같은 맥락이에요. 전체 모델 크기는 1.6T로 키우되 매번 49B만 활성화하면, 모델 용량과 추론 비용 사이에서 현실적인 타협점을 만들 수 있어요.
Sulphur-2-base는 폐쇄형 영상 생성 API와 다른 방향을 잡았어요. 품질 최상단 경쟁보다는 RTX 4090 같은 로컬 장비에서 워크플로를 직접 만질 수 있게 하는 쪽이라, 개발자와 제작자가 실험 비용을 줄이기 좋아요.
Privacy Filter는 기업 AI 도입에서 꽤 실전적인 조각이에요. 민감 문서를 LLM에 넣기 전에 로컬에서 PII를 지우면, 모델 성능보다 먼저 부딪히는 보안 승인 문제를 줄일 수 있거든요.

개발자 입장에선 ‘더 큰 모델’보다 ‘내 코드베이스와 문서를 오래 붙잡고 안정적으로 일하는 모델’이 더 중요해지는 흐름이 보여. 동시에 영상 생성과 개인정보 필터링이 로컬 환경으로 내려오면서, 인프라와 보안 설계까지 같이 봐야 하는 단계로 넘어가는 중이야.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-05-12

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml 2026-05-12

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml 2026-05-12

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml 2026-05-12

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml 2026-05-13

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.

허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

허깅페이스 이번 주 트렌드, 100만 토큰 에이전트와 로컬 영상 생성, 온디바이스 프라이버시

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사