---
title: "엔비디아, 피지컬 AI용 오픈 월드 모델 ‘코스모스 3’ 공개"
published: 2026-06-02T04:05:03.524Z
canonical: https://jeff.news/article/3606
---
# 엔비디아, 피지컬 AI용 오픈 월드 모델 ‘코스모스 3’ 공개

엔비디아가 로봇, 자율주행차, 스마트 공간 개발을 겨냥한 오픈소스 월드 모델 ‘코스모스 3’를 공개했다. 비전 추론, 월드 생성, 액션 예측을 하나로 묶은 구조이며, 16B 나노와 64B 슈퍼 모델, 학습 코드, 배포 도구, 합성 데이터셋까지 함께 제공한다.

## 피지컬 AI용 월드 모델이 나옴

- 엔비디아가 로봇, 자율주행차, 스마트 공간을 겨냥한 오픈소스 월드 모델 ‘코스모스 3(Cosmos 3)’를 공개함
  - 엔비디아는 이를 차세대 피지컬 AI 개발용 모델로 설명함
  - 텍스트, 이미지, 비디오, 오디오, 행동 데이터를 동시에 이해하고 생성할 수 있다고 함
  - 단순 생성 모델이 아니라 비전 추론, 월드 생성, 액션 예측을 하나로 묶은 구조임

- 엔비디아의 주장대로라면 개발 주기 단축 효과가 꽤 큼
  - 기존 로봇·자율주행 개발은 시뮬레이션 데이터 생성과 검증을 수개월 반복해야 했음
  - 코스모스 3는 물리 법칙 추론, 미래 상황 예측, 행동 생성을 단일 모델에 통합해 이 과정을 수일 수준으로 줄일 수 있다고 설명함
  - “데이터 만들고, 학습하고, 평가하고, 다시 고치는” 피지컬 AI 루프를 줄이려는 시도임

> [!IMPORTANT]
> 코스모스 3의 핵심은 예쁜 영상을 만드는 게 아니라, 로봇과 자율주행 시스템이 다음 장면과 행동 결과를 예측하는 개발 파이프라인을 줄이는 데 있음.

## 구조는 리즈너와 제너레이터로 나뉨

- 핵심 아키텍처는 엔비디아가 새로 설계한 트랜스포머 혼합(MoT, Mixture-of-Transformers)임
  - 리즈너 타워(Reasoner Tower)는 이미지, 영상, 텍스트 입력을 분석함
  - 물체 움직임, 상호작용, 물리적 상황을 이해하는 역할임
  - 제너레이터 타워(Generator Tower)는 이 이해를 바탕으로 미래 장면과 행동을 생성함

- 추론과 생성 방식도 다르게 가져감
  - 추론에는 자기회귀(Autoregressive) 방식을 사용함
  - 생성에는 확산(Diffusion) 모델을 활용함
  - 여러 모델을 따로 이어붙이던 워크플로우를 하나의 통합 모델로 대체해 복잡성을 줄이려는 설계임

```mermaid
sequenceDiagram
    participant 개발자
    participant 리즈너타워
    participant 제너레이터타워
    participant 로봇시스템
    개발자->>리즈너타워: 텍스트·이미지·비디오·행동 데이터 입력
    리즈너타워->>리즈너타워: 물체 움직임과 물리 상황 추론
    리즈너타워->>제너레이터타워: 이해된 세계 상태 전달
    제너레이터타워->>제너레이터타워: 미래 장면과 행동 생성
    제너레이터타워->>로봇시스템: 학습·평가용 데이터와 행동 계획 제공
```

## 모델 크기와 용도도 분리됨

- 코스모스 3는 두 가지 버전으로 제공됨
  - 코스모스 3 나노(Nano)는 160억 개 매개변수 규모임
  - 워크스테이션급 환경에서 실시간 추론이 가능하도록 설계됨
  - 코스모스 3 슈퍼(Super)는 640억 개 매개변수 규모임
  - 데이터센터 환경에서 대규모 합성 데이터 생성과 복잡한 물리 추론을 맡는 쪽임

- 입출력 형식도 꽤 넓게 잡았음
  - 텍스트만으로 이미지를 생성할 수 있음
  - 텍스트와 이미지로 미래 영상을 예측할 수 있음
  - 비디오와 행동 데이터를 기반으로 로봇 정책을 학습하거나 행동 계획을 생성할 수 있음
  - 세계 이해, 세계 생성, 행동 생성을 한 모델이 모두 수행하는 그림임

## 벤치마크와 공개 범위

- 엔비디아는 코스모스 3가 오픈소스 모델 중 최고 수준 성능을 냈다고 밝힘
  - 아티피셜 애널리시스 리더보드에서 텍스트-이미지와 이미지-비디오 부문 모두 오픈 웨이트 모델 중 1위를 기록했다고 함
  - 코스모스 3 슈퍼 텍스트-투-이미지 모델은 큐원 이미지 맥스, 하이드림, 플럭스 시리즈를 앞섰다고 설명함
  - 코스모스 3 슈퍼 이미지-투-비디오도 LTX-2, 완 2.2 등 경쟁 모델을 앞섰다고 함

- 피지컬 AI 벤치마크에서도 성능을 강조함
  - 물리 추론 평가인 PAI-벤치와 피직스-IQ
  - 로봇 정책 평가 플랫폼 로보랩
  - 영상 기반 로봇 월드 모델 벤치마크 R-벤치
  - 창고 자동화·교통 모니터링·스마트 공간 대상 밴티지-벤치
  - 교통 이상 상황 분석용 TAR 리더보드에서도 선두권 성적을 기록했다고 함

- 공개 범위가 모델 가중치에만 그치지 않는 것도 포인트임
  - 학습 코드와 배포 도구를 공개함
  - 로봇 조작, 물리 상호작용, 공간 추론, 디지털 휴먼, 자율주행, 물류창고 운영 등 6개 분야의 대규모 합성 데이터셋도 공개함
  - 학습 레시피, 설정 파일, 미세조정 코드까지 제공해 재현성과 개방성을 높이겠다는 계획임
  - 모델 가중치, 코드, 데이터셋은 허깅페이스에서 제공됨

- 엔비디아는 코스모스 3 기반 NIM 마이크로서비스도 확대할 예정임
  - 현재는 추론 기능을 제공하는 코스모스 3 리즈너 NIM이 공개됨
  - 앞으로 완전한 생성 기능을 지원하는 코스모스 3 제너레이터 NIM도 출시할 계획임

---

## 기술 맥락

- 코스모스 3의 선택은 로봇 개발에 필요한 여러 단계를 하나의 월드 모델 중심으로 묶는 거예요. 로봇이나 자율주행은 텍스트 답변보다 “이 행동을 하면 다음 장면이 어떻게 변하는가”를 예측하는 능력이 훨씬 중요하거든요.

- 리즈너 타워와 제너레이터 타워를 나눈 이유는 이해와 생성을 같은 방식으로 처리하기 어렵기 때문이에요. 물체 움직임과 상호작용을 읽는 일은 추론 문제에 가깝고, 미래 영상을 만드는 일은 생성 문제에 가까워요.

- 나노와 슈퍼를 나눈 것도 배포 환경이 다르기 때문이에요. 워크스테이션에서 실시간으로 돌릴 모델과 데이터센터에서 대규모 합성 데이터를 뽑을 모델은 비용, 지연시간, 처리량 요구사항이 다르거든요.

- 데이터셋과 학습 레시피까지 공개한 건 연구 재현성 측면에서 꽤 큼직한 포인트예요. 피지컬 AI는 데이터 수집 비용이 비싸서 모델 가중치만 공개해도 따라 하기 어렵거든요. 학습 코드와 설정까지 있어야 자기 로봇이나 자율주행 시나리오에 맞게 다시 훈련할 수 있어요.

## 핵심 포인트

- 코스모스 3는 비전 추론, 월드 생성, 액션 예측을 통합한 오픈 옴니모델
- 트랜스포머 혼합 구조로 리즈너 타워와 제너레이터 타워를 분리
- 16B 나노는 워크스테이션급 실시간 추론, 64B 슈퍼는 데이터센터급 합성 데이터 생성과 물리 추론 겨냥
- 텍스트-이미지와 이미지-비디오 부문에서 오픈 웨이트 모델 중 1위 성능을 기록했다고 발표
- 로봇 조작, 물리 상호작용, 공간 추론, 디지털 휴먼, 자율주행, 물류창고 운영 데이터셋 공개

## 인사이트

코스모스 3는 ‘영상 생성 모델’ 뉴스로 보면 반만 본 거임. 엔비디아가 진짜 노리는 건 로봇·자율주행 개발에서 데이터 생성, 시뮬레이션, 평가, 정책 학습을 하나의 월드 모델 파이프라인으로 묶는 것에 가까움.
