본문으로 건너뛰기
피드

이번 주 허깅페이스, 1.6조 파라미터 오픈소스와 오픈AI 프라이버시 필터가 흔들었다

ai-ml 약 12분

이번 글은 허깅페이스에서 주목받은 AI 모델과 데모를 묶어 DeepSeek-V4-Pro, OpenAI Privacy Filter, Waypoint 1.5의 의미를 정리함. 공통 키워드는 MoE, 오픈소스, 온디바이스 보안, 실시간 월드 모델이며, 한국 개발자에게도 모델 선택과 AI 인프라 설계 관점에서 참고할 만한 수치가 많음.

  • 1

    DeepSeek-V4-Pro는 총 1.6조 파라미터 중 49B만 활성화하는 MoE 구조와 100만 토큰 컨텍스트를 내세움

  • 2

    OpenAI Privacy Filter는 1.5B 경량 모델로 8가지 개인정보를 탐지하고 아파치 2.0 라이선스로 공개됨

  • 3

    Waypoint 1.5는 RTX 3090급 데스크톱 GPU에서 720p 60FPS로 동작하는 인터랙티브 월드 모델을 보여줌

  • 4

    이번 흐름은 AI 모델이 더 커지면서도 추론 비용은 줄이고, 오픈소스 활용 범위는 넓어지는 쪽으로 가고 있음을 보여줌

이번 주 허깅페이스의 분위기

  • 이번 주 키워드는 꽤 선명함. 큰 모델은 더 커졌고, 실행 비용은 더 낮추려 하고, 민감 정보는 보내기 전에 걸러내려는 흐름임

    • DeepSeek-V4-Pro는 1.6조 파라미터급 오픈소스 거대언어모델(LLM)을 전면에 내세움
    • OpenAI Privacy Filter는 오픈AI가 드물게 공개한 오픈소스 개인정보 탐지 모델이라는 점에서 눈길을 끔
    • Waypoint 1.5는 RTX 한 장으로 AI가 실시간 생성하는 세계를 걸어 다니게 만드는 데모를 보여줌
  • 공통분모는 전문가 혼합(MoE) 구조와 오픈소스 쪽으로 무게중심이 이동하고 있다는 점임

    • 1.6조 파라미터 모델이 매번 1.6조 전체를 돌리는 게 아니라 49B만 활성화함
    • 17B 이미지 모델도 추론 때는 약 2B만 활성화하는 식으로 비용을 줄임
    • “큰 모델은 무조건 비싸다”는 공식이 점점 덜 단순해지고 있음

DeepSeek-V4-Pro, 1.6조 파라미터를 49B처럼 굴리는 모델

  • DeepSeek-V4-Pro의 headline 숫자는 총 1.6조 파라미터, 활성 파라미터 49B, 컨텍스트 100만 토큰임

    • 100만 토큰은 한국 단행본 기준 7~8권 분량의 텍스트를 한 번에 넣는 수준으로 설명됨
    • 대규모 계약서, 사업보고서, 10-K 문서, 긴 코드베이스 분석 같은 작업을 겨냥한 스펙임
  • 효율을 위해 하이브리드 어텐션 구조를 썼다는 설명이 붙음

    • 기존 V3.2 대비 100만 토큰 환경에서 토큰당 추론 연산량(FLOPs)을 27% 줄였다고 함
    • KV 캐시 메모리는 10% 수준으로 줄였다는 게 딥시크 쪽 설명임
    • 핵심 기술로는 압축 희소 어텐션(CSA)과 고압축 어텐션(HCA)이 언급됨
  • 벤치마크에서도 꽤 공격적인 숫자가 나옴

    • 최대 추론 모드인 V4-Pro Max는 인공지능분석(Artificial Analysis)의 에이전트 실무 벤치(GDPval-AA)에서 1554점을 기록했다고 소개됨
    • Kimi K2.6, GLM-5.1 같은 동급 오픈소스 모델을 제쳤다는 평가가 붙음
    • 같은 벤치마크 한 회 통과 비용은 클로드 오퍼스 4.7 대비 4분의 1 수준으로 측정됐다고 함

중요

> 여기서 공유각인 숫자는 1.6조 파라미터보다도 “49B만 활성화”, “100만 토큰”, “클로드 오퍼스 4.7 대비 4분의 1 비용”임. 오픈웨이트 자체 운영을 고민하는 팀이면 그냥 지나치기 어려운 조합임.

  • 코딩 에이전트 쪽 호환성도 강조됨
    • 딥시크 발표 기준으로 사내 에이전트 코딩 환경에서 이미 주력 모델로 쓰이고 있다고 함
    • 클로드 코드(Claude Code), 오픈코드(OpenCode), 오픈클로(OpenClaw) 같은 코딩 에이전트와 바로 호환된다고 소개됨
    • 라이선스는 MIT로, 상업적 이용 제약이 거의 없는 쪽에 가까움

DeepSeek-V4-Flash, 대부분의 실무 작업엔 더 싼 선택지

  • V4-Flash는 형 모델보다 작지만 같은 100만 토큰 컨텍스트를 지원함

    • 총 284B 파라미터 중 13B만 활성화되는 MoE 모델임
    • 사고(Thinking) 모드와 즉답(Non-thinking) 모드를 모두 지원한다고 소개됨
  • 일반 업무에서는 V4-Pro와 차이가 작다는 게 흥미로운 포인트임

    • 챗봇 대화, 코드 자동완성, 단발성 요약 같은 작업에서는 성능 격차가 1~3점 수준으로 언급됨
    • 라이브코드벤치(LiveCodeBench), MMLU-Pro 같은 벤치마크에서는 형 모델에 근접했다는 평가가 붙음
  • 대신 복잡한 에이전트 루프에서는 약점이 있음

    • 터미널벤치 2.0(Terminal Bench 2.0)이나 사실 회상(SimpleQA-Verified)에서는 형 모델 대비 10점 이상 낮다고 함
    • 실시간 코딩 어시스턴트나 대량 응답 처리에는 Flash가 맞고, 긴 다단계 도구 호출에는 Pro가 낫다는 구도가 됨

OpenAI Privacy Filter, 오픈AI가 내놓은 드문 오픈소스 보안 모델

  • OpenAI Privacy Filter는 글을 생성하는 모델이 아니라, 텍스트에서 민감한 정보를 찾아내는 모델임

    • 4월 22일 아파치 2.0 라이선스로 공개됐다고 소개됨
    • 오픈AI가 ‘닫힌 회사’ 이미지와 달리 오픈소스 모델을 냈다는 점만으로도 화제가 됨
  • 모델 크기는 1.5B지만 실제 활성 파라미터는 50M 수준이라고 설명됨

    • 노트북 CPU와 4~8GB 램에서도 동작할 만큼 가볍다는 주장임
    • GPT-OSS와 유사한 트랜스포머 백본을 양방향 인코더로 바꿔 토큰을 한 번에 읽고 라벨을 붙이는 구조임
    • 컨텍스트 길이는 12만8000 토큰이라 300쪽 계약서나 2시간 회의 녹취록을 한 번에 처리하는 시나리오가 가능하다고 함
  • 탐지 대상은 8가지 개인정보(PII)임

    • 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀(API 키, 비밀번호, 고엔트로피 문자열 등)을 잡아냄
    • BIOES 라벨링으로 33개 토큰 클래스에 매핑해 정밀하게 표시한다고 설명됨

⚠️주의

> 외부 대규모 언어 모델(LLM)에 문서를 넣기 전에 개인정보를 빼는 건 이제 선택이 아니라 운영 리스크 관리에 가까움. 특히 금융, 의료, 법률, 공공 쪽은 이런 필터가 게이트웨이처럼 붙을 가능성이 큼.

  • 진짜 의미는 온디바이스 실행임
    • 모델 가중치를 한 번 내려받으면 인터넷 없이도 동작함
    • 의료기관 차단망, 군사용 폐쇄망, 금융사 보안실처럼 외부 연결이 제한된 환경도 공식 문서에서 시나리오로 잡고 있음
    • 챗GPT, 클로드, 노트북LM 같은 외부 AI에 문서를 보내기 전 게이트키퍼로 쓰라는 게 권장 사용법임

Waypoint 1.5, AI가 실시간으로 그리는 세계

  • Overworld의 Waypoint 1.5는 텍스트 프롬프트와 사용자 조작을 받아 다음 화면을 실시간 생성하는 인터랙티브 월드 모델임

    • 단순 영상 생성이 아니라 키보드와 마우스로 움직이면 그 다음 장면을 AI가 이어서 그리는 방식임
    • RTX 3090부터 5090까지의 데스크톱 GPU에서 720p 60FPS로 동작한다고 소개됨
    • 게이밍 노트북용 360p 경량 버전도 함께 공개됨
  • 학습 데이터 규모도 꽤 큼

    • 1만 시간 분량의 게임 영상에 컨트롤러 입력과 텍스트 캡션을 페어링했다고 함
    • 1세대 Waypoint 대비 약 100배 늘어난 데이터라고 설명됨
    • 시드 이미지를 한 장 올리면 그 이미지를 출발점으로 한 가상 세계가 이어지는 방식임
  • 아직은 ‘게임 엔진’이라기보다 ‘꿈꾸는 시뮬레이터’에 가까움

    • 오래 탐험하면 지형이 흐트러지거나 캐릭터가 사라지는 등 물리 일관성이 깨질 수 있음
    • 그래도 인디 게임 콘셉트 검증, 광고 사전 시각화, 건축 가상 답사, 인터랙티브 교육 시뮬레이션에는 충분히 흥미로운 도구임

이미지 생성도 MoE 쪽으로 간다

  • Nucleus Image는 텍스트-이미지 생성에 MoE 구조를 적용한 사례로 소개됨

    • 총 17B 파라미터 중 추론 때 약 2B만 활성화되는 희소 MoE 디퓨전 트랜스포머임
    • 한 레이어에 64명의 전문가를 두고 이미지 일부를 그릴 때 적절한 전문가만 호출하는 방식임
  • 공개 범위가 넓다는 점도 포인트임

    • 가중치뿐 아니라 학습 코드와 데이터셋 레시피까지 공개했다고 소개됨
    • 라이선스는 아파치 2.0이라 상업적 이용도 자유로운 편임
    • 1:1, 16:9, 9:16, 4:3 등 여러 비율로 1024급 이미지를 생성하는 데모를 제공함

그래서 개발자한테 뭐가 중요하냐

  • 첫째, MoE 추론 최적화가 AI 인프라의 핵심 경쟁력이 되고 있음

    • 텍스트, 이미지, 개인정보 탐지까지 MoE가 반복해서 등장함
    • 모델 전체 크기보다 실제 활성 파라미터, KV 캐시, 긴 컨텍스트 비용을 봐야 하는 시대가 됨
  • 둘째, 오픈소스와 폐쇄형 모델의 격차가 다시 좁혀지는 중임

    • DeepSeek-V4-Pro가 클로드 오퍼스 4.7과 비교되는 영역에 들어왔고, 비용은 4분의 1 수준으로 언급됨
    • 폐쇄형 API만 쓰던 팀도 오픈웨이트 자체 운영을 진지하게 계산해볼 명분이 생김
  • 셋째, 데이터 안전은 모델 성능만큼 중요해지고 있음

    • OpenAI Privacy Filter 같은 모델은 외부 AI 호출 전 개인정보를 거르는 실무형 보안 레이어가 될 수 있음
    • 한국 기업 입장에서는 한국어 개인정보 유형과 내부 문서 포맷에 맞춰 파인튜닝할 여지도 큼

기술 맥락

  • DeepSeek-V4-Pro가 흥미로운 이유는 “큰 모델을 만들었다”가 아니라 “큰 모델을 매번 다 쓰지 않게 만들었다”는 점이에요. MoE 구조는 전체 전문가 풀은 크게 가져가면서도 요청마다 일부 전문가만 활성화하니까, 성능과 비용 사이에서 훨씬 세밀한 타협이 가능해요.

  • 100만 토큰 컨텍스트는 단순히 긴 글을 넣는 기능이 아니에요. 계약서, 코드베이스, 사업보고서처럼 원래는 조각내서 임베딩하고 다시 조합해야 했던 작업을 한 번에 읽히는 쪽으로 바꿀 수 있거든요. 대신 KV 캐시 메모리와 추론 비용이 폭발하기 쉬워서, 기사에서 말한 압축 어텐션 계열 최적화가 같이 중요해져요.

  • OpenAI Privacy Filter는 생성형 AI보다 훨씬 덜 화려하지만, 실제 기업 환경에서는 더 빨리 붙을 수 있는 종류의 모델이에요. 외부 대규모 언어 모델(LLM)에 문서를 보내기 전에 이름, 계좌번호, API 키를 먼저 지우는 게 보안팀과 법무팀 입장에서는 모델 성능보다 우선일 때가 많거든요.

  • Waypoint 1.5 같은 월드 모델은 게임 엔진을 당장 대체한다기보다, 프로토타이핑 비용을 낮추는 쪽에서 먼저 의미가 있어요. 720p 60FPS를 RTX 3090에서 돌린다는 숫자는 “클라우드 데모로만 가능한 기술”에서 “개인 개발자가 만져볼 수 있는 기술”로 내려오고 있다는 신호예요.

  • 한국 개발자에게 이 흐름이 중요한 이유는 선택지가 늘어나기 때문이에요. 폐쇄형 API를 계속 쓸지, 오픈웨이트를 자체 운영할지, 개인정보 필터를 앞단에 둘지, 긴 컨텍스트 모델로 문서 처리 구조를 단순화할지 같은 의사결정이 이제 제품 비용과 보안 구조를 직접 흔들게 돼요.

이 글의 재미는 단순 신모델 소개보다 숫자 조합에 있음. 1.6조 파라미터, 100만 토큰, 4분의 1 비용, 12만8000 토큰 프라이버시 필터, RTX 3090 60FPS 같은 수치가 말해주는 건 이제 오픈소스 AI가 연구실 장난감이 아니라 제품 인프라 선택지가 됐다는 점임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

알파벳 실적에서 보이는 AI 수직계열화의 힘

애널리스트들은 알파벳이 검색이나 광고 하나에 기대는 회사가 아니라, 클라우드·유튜브·AI 칩·데이터센터까지 여러 축에서 성장하고 있다고 평가했어. 특히 구글 클라우드 성장, 제미나이 도입, TPU 판매가 AI 수익화 흐름을 강화하는 신호로 읽혔어.

ai-ml

구글 클라우드, 자체 AI 칩 TPU를 외부 데이터센터에도 판다

구글 클라우드가 자체 개발 AI 칩 TPU를 일부 외부 고객에게 판매하기 시작해. 지금까지 클라우드 안에서 쓰는 가속기 성격이 강했다면, 이제는 고객 자체 데이터센터에도 들어가는 하드웨어 사업으로 확장되는 흐름이야.

ai-ml

알파벳이 웃은 이유, AI 투자보다 구글 클라우드 매출이 먼저 증명했다

빅테크 실적 발표 이후 시장은 AI에 돈을 얼마나 쓰는지가 아니라 그 돈이 매출로 돌아오는지를 보기 시작했어. 알파벳은 구글 클라우드 매출이 63% 급증하며 아마존과 마이크로소프트보다 훨씬 강한 성장률을 보여줬고, 그 결과 주가도 6% 넘게 뛰었어.

ai-ml

카카오 플레이MCP, 오픈소스 AI 에이전트 오픈클로와 붙었다

카카오의 MCP 기반 개방형 플랫폼 플레이MCP가 오픈소스 AI 에이전트 오픈클로 연동을 지원한다. 카카오톡, 톡캘린더, 카카오맵 같은 카카오 서비스와 200여 개 외부 서버를 에이전트가 호출해 반복 업무를 자동화할 수 있게 된 게 핵심이다.

ai-ml

카카오 PlayMCP, 오픈소스 AI 에이전트 오픈클로와 연결 지원

카카오의 MCP 기반 플랫폼 PlayMCP가 오픈소스 AI 에이전트 오픈클로 연동을 지원함. 개발자는 PlayMCP에 담아둔 200여 개 MCP 서버와 카카오 서비스 도구를 로컬 AI 에이전트에서 자연어 명령으로 실행할 수 있게 됨.