---
title: "엔비디아, 물리 세계 이해하는 오픈 모델 ‘코스모스 3’ 공개"
published: 2026-06-01T11:05:03.843Z
canonical: https://jeff.news/article/3580
---
# 엔비디아, 물리 세계 이해하는 오픈 모델 ‘코스모스 3’ 공개

엔비디아가 로봇, 자율주행, 스마트 공간 같은 물리 AI용 월드 파운데이션 모델 ‘코스모스 3’를 공개했다. 핵심은 모듈형 트랜스포머 구조와 공개 가중치로, 물리 세계 데이터를 만들고 추론하는 모델 레이어까지 엔비디아가 장악하려는 움직임이다.

### 엔비디아가 이번엔 ‘물리 세계용 모델’을 꺼냄

- 엔비디아가 2026년 6월 1일 물리 AI용 오픈 월드 기반 모델 ‘코스모스 3’를 공개함
  - 대상은 로봇, 자율주행 차량, 스마트 공간처럼 현실 세계를 이해하고 그 안에서 행동해야 하는 시스템임
  - 그러니까 챗봇용 대규모 언어 모델(LLM)이 아니라, 기계가 물리 환경을 추론하도록 돕는 월드 파운데이션 모델(World Foundation Model)에 가까움

- 코스모스 3의 역할은 ‘합성 월드 데이터’를 만들어내는 것임
  - 로봇이나 자율 시스템은 실제 세계 데이터를 무한정 모으기 어렵고, 위험하거나 비싼 상황도 많음
  - 그래서 모델이 물리 환경을 흉내 낸 데이터를 만들고, 그걸로 시스템을 훈련시키는 쪽이 점점 중요해지고 있음

> [!IMPORTANT]
> 포인트는 ‘언어 모델 하나 더 나왔다’가 아님. 엔비디아가 현실 세계를 이해하고 행동하는 AI의 학습 데이터와 추론 백본까지 잡으려 한다는 얘기임.

### 구조는 조밀한 트랜스포머가 아니라 모듈형

- 코스모스 3는 모듈형 트랜스포머(Mixture-of-Transformers) 아키텍처를 쓴다고 설명됨
  - 기존 조밀한 트랜스포머는 입력을 전체 네트워크에 밀어 넣는 방식에 가까움
  - 코스모스 3는 입력을 특화된 서브 모델로 라우팅해서 한 번의 포워드 패스에 필요한 연산량을 줄이는 접근을 택함

- 이 설계는 물리 AI 쪽에서 꽤 그럴듯한 선택임
  - 로봇의 인지, 내비게이션, 조작은 요구하는 정보와 추론 방식이 다름
  - 모든 문제를 하나의 거대한 경로로 처리하기보다, 작업 성격에 맞는 모델을 태우는 쪽이 비용과 확장성 면에서 유리할 수 있음

### ‘오픈’이라는 말도 그냥 마케팅만은 아님

- 엔비디아는 코스모스 3를 오픈 모델이라고 부르고, 개발자가 모델 가중치에 직접 접근할 수 있다고 밝힘
  - 물리 AI 영역은 폐쇄형 가중치 모델도 많은데, 가중치 접근은 연구자와 개발자에게 꽤 큰 차이임
  - 모델을 뜯어보고, 파인튜닝하고, 특정 로봇이나 시뮬레이션 환경에 맞춰 실험할 여지가 생김

- 경쟁 구도도 이미 빡빡함
  - 구글 딥마인드는 월드 모델 연구를 밀고 있고, 메타는 제파(JEPA) 계열 아키텍처를 연구 중임
  - 2026년 5월 한 벤치마크에서는 최전선 모델들도 물리 세계 추론 과제에서 쉽게 깨진다는 평가가 나왔음
  - 즉, 아직 ‘해결된 문제’가 아니라서 오픈 가중치 모델의 실험 가치가 큼

### 모델만 던진 게 아니라 스택 전체를 깔고 있음

- 엔비디아는 코스모스 3와 함께 물리 AI용 오픈소스 에이전트 도구와 스킬 모음도 공개함
  - 범위는 인지(perception), 내비게이션, 조작(manipulation) 작업까지 포함함
  - 코스모스 3를 추론 백본으로 두고 그 위에서 동작하도록 설계된 도구들임

- 여기에 디에스엑스 운영체제 플랫폼(DSX OS) 기술 문서까지 공개함
  - 디에스엑스는 대규모 AI 팩토리를 운영하기 위한 개방형·모듈형 소프트웨어로 설명됨
  - 모델 가중치, 에이전트 툴링, 운영 소프트웨어까지 한 번에 묶으면 엔비디아는 물리 AI 스택의 여러 레이어를 동시에 쥐게 됨

---

## 기술 맥락

- 코스모스 3에서 중요한 선택은 ‘하나의 큰 모델’이 아니라 모듈형 트랜스포머를 쓴다는 점이에요. 물리 AI는 텍스트 생성처럼 한 종류의 입력만 다루는 게 아니라, 공간 인식과 이동, 조작 같은 서로 다른 문제를 동시에 다뤄야 하거든요.

- 입력을 특화된 서브 모델로 라우팅하면 모든 계산을 매번 전체 네트워크에 태우지 않아도 돼요. 기사에서 말한 연산량 감소는 단순 최적화가 아니라, 로봇이나 자율주행처럼 추론 비용이 곧 제품 비용으로 이어지는 영역에서는 꽤 큰 설계 포인트예요.

- 가중치 공개도 의미가 커요. 물리 AI는 현장 환경마다 데이터 분포가 달라서, 모델을 그대로 쓰기보다 특정 로봇, 센서, 시뮬레이터에 맞춰 조정해야 할 가능성이 높거든요. 폐쇄형 모델이면 이 실험 폭이 확 줄어들어요.

- 엔비디아가 에이전트 도구와 운영 소프트웨어까지 같이 공개한 것도 우연은 아니에요. 모델만 좋아서는 실제 AI 팩토리나 로봇 개발 파이프라인에 붙이기 어렵고, 학습 데이터 생성부터 추론 백본, 운영 레이어까지 이어져야 현장에서 굴러가요.

## 핵심 포인트

- 코스모스 3는 언어 모델이 아니라 물리 환경 추론을 위한 월드 파운데이션 모델이다.
- 모듈형 트랜스포머 구조로 입력을 특화된 서브 모델에 라우팅해 포워드 패스 연산량을 줄인다.
- 개발자가 모델 가중치에 접근할 수 있다는 점이 폐쇄형 물리 AI 모델들과의 차별점이다.
- 엔비디아는 에이전트 도구, 스킬 모음, 디에스엑스 운영 소프트웨어까지 함께 공개해 물리 AI 스택 전체를 노린다.

## 인사이트

엔비디아가 단순히 칩만 파는 회사가 아니라, 로봇과 자율 시스템이 학습할 ‘세계 모델’까지 깔겠다는 신호다. 물리 AI가 실제 제품으로 내려오기 시작하면 개발자 입장에서도 모델, 시뮬레이션, 운영 인프라를 한 묶음으로 보는 감각이 필요해진다.
