본문으로 건너뛰기
피드

엔비디아, 물리 세계 이해하는 오픈 모델 ‘코스모스 3’ 공개

ai-ml 약 6분
vote
0
댓글
북마크

엔비디아가 로봇, 자율주행, 스마트 공간 같은 물리 AI용 월드 파운데이션 모델 ‘코스모스 3’를 공개했다. 핵심은 모듈형 트랜스포머 구조와 공개 가중치로, 물리 세계 데이터를 만들고 추론하는 모델 레이어까지 엔비디아가 장악하려는 움직임이다.

  • 1

    코스모스 3는 언어 모델이 아니라 물리 환경 추론을 위한 월드 파운데이션 모델이다.

  • 2

    모듈형 트랜스포머 구조로 입력을 특화된 서브 모델에 라우팅해 포워드 패스 연산량을 줄인다.

  • 3

    개발자가 모델 가중치에 접근할 수 있다는 점이 폐쇄형 물리 AI 모델들과의 차별점이다.

  • 4

    엔비디아는 에이전트 도구, 스킬 모음, 디에스엑스 운영 소프트웨어까지 함께 공개해 물리 AI 스택 전체를 노린다.

엔비디아가 이번엔 ‘물리 세계용 모델’을 꺼냄

  • 엔비디아가 2026년 6월 1일 물리 AI용 오픈 월드 기반 모델 ‘코스모스 3’를 공개함

    • 대상은 로봇, 자율주행 차량, 스마트 공간처럼 현실 세계를 이해하고 그 안에서 행동해야 하는 시스템임
    • 그러니까 챗봇용 대규모 언어 모델(LLM)이 아니라, 기계가 물리 환경을 추론하도록 돕는 월드 파운데이션 모델(World Foundation Model)에 가까움
  • 코스모스 3의 역할은 ‘합성 월드 데이터’를 만들어내는 것임

    • 로봇이나 자율 시스템은 실제 세계 데이터를 무한정 모으기 어렵고, 위험하거나 비싼 상황도 많음
    • 그래서 모델이 물리 환경을 흉내 낸 데이터를 만들고, 그걸로 시스템을 훈련시키는 쪽이 점점 중요해지고 있음

중요

> 포인트는 ‘언어 모델 하나 더 나왔다’가 아님. 엔비디아가 현실 세계를 이해하고 행동하는 AI의 학습 데이터와 추론 백본까지 잡으려 한다는 얘기임.

구조는 조밀한 트랜스포머가 아니라 모듈형

  • 코스모스 3는 모듈형 트랜스포머(Mixture-of-Transformers) 아키텍처를 쓴다고 설명됨

    • 기존 조밀한 트랜스포머는 입력을 전체 네트워크에 밀어 넣는 방식에 가까움
    • 코스모스 3는 입력을 특화된 서브 모델로 라우팅해서 한 번의 포워드 패스에 필요한 연산량을 줄이는 접근을 택함
  • 이 설계는 물리 AI 쪽에서 꽤 그럴듯한 선택임

    • 로봇의 인지, 내비게이션, 조작은 요구하는 정보와 추론 방식이 다름
    • 모든 문제를 하나의 거대한 경로로 처리하기보다, 작업 성격에 맞는 모델을 태우는 쪽이 비용과 확장성 면에서 유리할 수 있음

‘오픈’이라는 말도 그냥 마케팅만은 아님

  • 엔비디아는 코스모스 3를 오픈 모델이라고 부르고, 개발자가 모델 가중치에 직접 접근할 수 있다고 밝힘

    • 물리 AI 영역은 폐쇄형 가중치 모델도 많은데, 가중치 접근은 연구자와 개발자에게 꽤 큰 차이임
    • 모델을 뜯어보고, 파인튜닝하고, 특정 로봇이나 시뮬레이션 환경에 맞춰 실험할 여지가 생김
  • 경쟁 구도도 이미 빡빡함

    • 구글 딥마인드는 월드 모델 연구를 밀고 있고, 메타는 제파(JEPA) 계열 아키텍처를 연구 중임
    • 2026년 5월 한 벤치마크에서는 최전선 모델들도 물리 세계 추론 과제에서 쉽게 깨진다는 평가가 나왔음
    • 즉, 아직 ‘해결된 문제’가 아니라서 오픈 가중치 모델의 실험 가치가 큼

모델만 던진 게 아니라 스택 전체를 깔고 있음

  • 엔비디아는 코스모스 3와 함께 물리 AI용 오픈소스 에이전트 도구와 스킬 모음도 공개함

    • 범위는 인지(perception), 내비게이션, 조작(manipulation) 작업까지 포함함
    • 코스모스 3를 추론 백본으로 두고 그 위에서 동작하도록 설계된 도구들임
  • 여기에 디에스엑스 운영체제 플랫폼(DSX OS) 기술 문서까지 공개함

    • 디에스엑스는 대규모 AI 팩토리를 운영하기 위한 개방형·모듈형 소프트웨어로 설명됨
    • 모델 가중치, 에이전트 툴링, 운영 소프트웨어까지 한 번에 묶으면 엔비디아는 물리 AI 스택의 여러 레이어를 동시에 쥐게 됨

기술 맥락

  • 코스모스 3에서 중요한 선택은 ‘하나의 큰 모델’이 아니라 모듈형 트랜스포머를 쓴다는 점이에요. 물리 AI는 텍스트 생성처럼 한 종류의 입력만 다루는 게 아니라, 공간 인식과 이동, 조작 같은 서로 다른 문제를 동시에 다뤄야 하거든요.

  • 입력을 특화된 서브 모델로 라우팅하면 모든 계산을 매번 전체 네트워크에 태우지 않아도 돼요. 기사에서 말한 연산량 감소는 단순 최적화가 아니라, 로봇이나 자율주행처럼 추론 비용이 곧 제품 비용으로 이어지는 영역에서는 꽤 큰 설계 포인트예요.

  • 가중치 공개도 의미가 커요. 물리 AI는 현장 환경마다 데이터 분포가 달라서, 모델을 그대로 쓰기보다 특정 로봇, 센서, 시뮬레이터에 맞춰 조정해야 할 가능성이 높거든요. 폐쇄형 모델이면 이 실험 폭이 확 줄어들어요.

  • 엔비디아가 에이전트 도구와 운영 소프트웨어까지 같이 공개한 것도 우연은 아니에요. 모델만 좋아서는 실제 AI 팩토리나 로봇 개발 파이프라인에 붙이기 어렵고, 학습 데이터 생성부터 추론 백본, 운영 레이어까지 이어져야 현장에서 굴러가요.

엔비디아가 단순히 칩만 파는 회사가 아니라, 로봇과 자율 시스템이 학습할 ‘세계 모델’까지 깔겠다는 신호다. 물리 AI가 실제 제품으로 내려오기 시작하면 개발자 입장에서도 모델, 시뮬레이션, 운영 인프라를 한 묶음으로 보는 감각이 필요해진다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

앤트로픽, 미국 증권거래위원회에 기업공개 초안 비공개 제출

클로드를 만드는 앤트로픽이 미국 증권거래위원회에 기업공개를 위한 S-1 등록신고서 초안을 비공개로 냈다. 아직 상장 시점, 공모 주식 수, 가격은 정해지지 않았고, 시장 상황과 심사 결과에 따라 실제 기업공개 여부가 갈릴 수 있다.

ai-ml

비트코인 채굴업체 아이렌, GPU 확보에 36억5000만달러 조달

비트코인 채굴업체 아이렌이 AI 클라우드 사업 확대를 위해 36억5000만달러 규모의 GPU 도입 자금을 마련했다. 이 자금은 마이크로소프트 AI 클라우드 계약을 뒷받침하는 데 쓰일 예정이며, 채굴 인프라를 AI 컴퓨팅 인프라로 전환하려는 흐름을 보여준다.

ai-ml

네이버클라우드, 젠슨 황 방한 맞춰 엔비디아 협력안 공개 예고

김유원 네이버클라우드 대표가 엔비디아와의 구체적 협력안이 6월 8일쯤 3개 정도 발표될 것 같다고 밝혔다. 젠슨 황 엔비디아 최고경영자의 방한과 네이버 사옥 방문 가능성이 거론되며, 인공지능·클라우드·로보틱스 협력 기대가 커지고 있다.

ai-ml

젠슨 황 방한, 한국 인공지능 동맹이 반도체에서 로봇으로 넓어질까

젠슨 황 엔비디아 최고경영자가 컴퓨텍스 이후 한국을 찾아 네이버, 엘지, 현대차, 두산 등과 피지컬 인공지능 협력을 논의할 가능성이 커졌다는 내용임. 지난해 협력이 고대역폭 메모리와 인공지능 팩토리 중심이었다면, 이번에는 가정용 로봇·산업용 휴머노이드·스마트팩토리 같은 실제 물리 세계 애플리케이션으로 전선이 이동하는 분위기임.

ai-ml

수술로봇 10년, 다빈치 독주 속 피지컬 인공지능 경쟁이 본격화됨

수술로봇 개발자의 시각에서 2016년 알파고 이후 10년 동안 수술로봇과 의료 인공지능이 어떻게 바뀌었는지 짚은 글임. 다빈치 5는 이전 모델보다 1만 배 이상의 컴퓨팅 파워와 포스 피드백을 앞세웠고, 메드트로닉·존슨앤존슨·중국·인도 업체까지 경쟁 구도가 넓어지고 있음.