엔비디아, RTX 5090 한 장으로 1분 영상 뽑는 월드 모델 공개

ai-ml 2026-05-17 약 6분

 tags

#world-model #video-generation #gpu #nvidia #robotics

vote

북마크

엔비디아가 26억 매개변수 규모의 오픈소스 월드 모델 SANA-WM을 공개했다. 단일 GPU에서도 720p 1분 영상을 생성할 수 있고, 경량화 버전은 지포스 RTX 5090 한 장으로 60초 영상을 34초 만에 만들 수 있다고 한다.

1
SANA-WM은 720p 1분 영상을 네이티브로 생성하는 26억 매개변수 월드 모델
2
경량화 버전은 RTX 5090 한 장에서 60초 영상을 34초 만에 생성
3
하이브리드 선형 어텐션, 6자유도 카메라 제어, 리파이너, 트리톤 커널 최적화가 핵심

엔비디아가 오픈소스 월드 모델 SANA-WM을 공개함. 포인트는 “단일 GPU로 1분짜리 720p 영상”임
- 모델 크기는 26억 매개변수(2.6B)
- 한 장의 초기 이미지, 카메라 움직임, 행동 정보를 바탕으로 현실적인 영상 시퀀스를 생성함
- 경량화 버전은 소비자용 GPU인 지포스 RTX 5090 한 장에서 60초짜리 720p 영상을 34초 만에 생성할 수 있다고 함

❗중요

> 기존 오픈소스 월드 모델은 여러 GPU가 필요하거나 해상도를 낮춰야 하는 경우가 많았음. SANA-WM의 차별점은 “1분 720p”를 단일 GPU 환경까지 끌어내렸다는 데 있음.

월드 모델은 요즘 로봇 훈련과 가상 시뮬레이션에서 뜨는 기술임
- 단순 텍스트-비디오 생성이 아니라, 카메라가 움직이고 행동이 주어졌을 때 장면이 어떻게 이어질지 만들어내는 쪽에 가까움
- 현실적인 장시간 영상을 만들려면 GPU 메모리와 연산량이 크게 필요해서, 효율이 항상 병목이었음
SANA-WM은 카메라 제어를 꽤 진지하게 다룸
- 카메라의 위치와 회전을 포함한 6자유도(6-DoF) 움직임을 제어할 수 있게 설계됨
- 듀얼-브랜치 카메라 컨트롤로 영상 전체의 카메라 이동 흐름과 프레임 내부 세부 움직임을 나눠 처리함
- 덕분에 장시간 영상에서도 카메라 궤적을 더 안정적으로 유지한다는 설명임
긴 영상을 버티기 위해 어텐션 구조도 바꿨음
- 하이브리드 선형 어텐션(Hybrid Linear Attention)을 적용해 메모리 사용량을 줄임
- 기존 트랜스포머 기반 영상 모델은 길이가 늘어날수록 연산량이 급격히 커지는 문제가 있음
- SANA-WM은 프레임 단위의 게이티드 델타넷(GDN)과 일부 소프트맥스 어텐션을 섞어서 이 비용을 낮췄다고 함
품질 저하를 줄이기 위해 2단계 생성 방식도 넣음
- 1차 생성 결과에 별도 리파이너(refiner) 모델을 적용함
- 장시간 생성에서 흔히 생기는 구조 붕괴나 화면 드리프트를 줄이는 용도임
- 리파이너 적용 버전은 720p에서 VBench Overall 80점대를 기록했다고 함
데이터와 학습 규모도 꽤 구체적으로 공개됨
- 인터넷 공개 영상과 3D 가우시안 스플래팅(Gaussian Splatting) 기반 합성 영상을 활용해 총 21만2975개 학습 클립을 구축함
- 카메라 위치·회전 정보를 자동 추출하는 자체 주석 파이프라인으로 6-DoF 학습 데이터를 만들었음
- 학습은 엔비디아 H100 GPU 64개에서 약 15일 동안 진행됨
벤치마크에서는 처리량이 꽤 세게 나옴
- 엔비디아의 60초 월드 모델 벤치마크에서 카메라 추종 정확도와 영상 안정성이 기존 오픈소스 모델보다 좋았다고 함
- 8개 H100 GPU 기준 시간당 22개 영상을 생성했고, 경쟁 모델 대비 최대 36배 높은 처리량을 기록함
- 자체 트리톤(Triton) 커널 최적화로 학습과 추론 속도도 1.5~2배 개선했다고 밝힘
물론 아직 “현실을 완전히 이해하는 모델”은 아님
- 연구진은 현재 모델이 완전한 3D 장면 메모리를 갖춘 건 아니라고 인정함
- 긴 영상이나 복잡한 동적 장면에서는 여전히 품질 저하가 생길 수 있음
- 그래도 오픈소스로 단일 GPU 실험 가능성을 열었다는 점은 꽤 큼

기술 맥락

SANA-WM의 핵심 선택은 모델을 무작정 키우는 대신 긴 영상 생성의 병목을 줄이는 쪽이에요. 1분짜리 720p 영상은 프레임 수와 해상도 때문에 메모리 압박이 커서, 일반적인 트랜스포머 구조만으로는 단일 GPU에서 다루기 어렵거든요.
하이브리드 선형 어텐션을 넣은 이유도 여기에 있어요. 모든 프레임이 모든 프레임을 무겁게 참조하면 영상이 길어질수록 비용이 터지니까, 프레임 단위 구조와 일부 어텐션을 섞어 필요한 품질은 유지하고 비용은 낮추는 방향을 택한 거예요.
듀얼-브랜치 카메라 컨트롤은 월드 모델이 단순 영상 생성기와 달라지는 지점이에요. 로봇 훈련이나 시뮬레이션에서는 카메라가 어디로 움직였는지가 결과의 의미를 좌우하니까, 전체 궤적과 프레임 내부 움직임을 분리해서 더 안정적으로 맞추려는 거예요.
리파이너를 별도로 둔 것도 현실적인 선택이에요. 긴 영상을 한 번에 만들면 뒤로 갈수록 구조가 무너질 수 있어서, 1차 결과를 다시 다듬는 단계로 드리프트를 줄이는 방식이에요.
RTX 5090 한 장에서 돌아간다는 대목은 연구 접근성을 크게 바꿀 수 있어요. H100 여러 장이 없어도 개발자가 로컬 워크스테이션에서 월드 모델을 만져볼 수 있다는 뜻이라, 로봇·시뮬레이션 쪽 실험 장벽이 내려가요.

월드 모델이 연구실 데모에서 개인 워크스테이션급 실험 대상으로 내려오는 흐름이 보임. 다만 완전한 3D 장면 메모리는 아직 없어서, 로봇·시뮬레이션에 바로 만능으로 쓰기보다는 긴 영상 생성 효율을 크게 끌어올린 오픈 모델로 보는 게 맞음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

엔비디아, RTX 5090 한 장으로 1분 영상 뽑는 월드 모델 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

엔비디아, RTX 5090 한 장으로 1분 영상 뽑는 월드 모델 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사