---
title: "앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개"
published: 2026-05-21T06:05:04.208Z
canonical: https://jeff.news/article/3055
---
# 앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개

앨런 AI연구소가 로봇이 3차원 환경을 이해하고 실제 행동으로 옮기도록 돕는 오픈소스 파운데이션 모델 몰모액트2를 공개했다. 기존 로봇 모델보다 일부 실세계 과제를 최대 37배 빠르게 처리하고, 720시간 이상 양팔 로봇 훈련 데이터도 함께 내놨다.

- 앨런 AI연구소가 실세계 로봇용 오픈소스 파운데이션 모델 ‘몰모액트2’를 공개함
  - 작년 8월 공개한 몰모액트의 후속 모델이고, 로봇이 행동하기 전에 3차원 환경을 추론하는 행동 추론 모델(ARM) 계열임
  - 복잡한 자연어 명령을 현실에서 실행 가능한 물리적 행동 단계로 바꾸는 게 핵심임

- 성능 주장도 꽤 공격적임. 기존 로봇 모델보다 다양한 실세계 과제를 최대 37배 빠르게 처리한다고 함
  - 연구 논문은 아카이브에 ‘MolmoAct2, Action Reasoning Models for Real-world Deployment’라는 제목으로 올라감
  - 물체까지의 거리, 빈 공간 위치, 여러 카메라 화면 사이의 물체 연결 같은 공간 이해 능력이 강조됨
  - 연구팀은 공간 이해 관련 국제 기준 13개 항목에서 GPT-5와 구글 제미나이 로보틱스를 앞섰다고 밝힘

> [!IMPORTANT]
> 몰모액트2의 포인트는 “로봇이 말귀를 알아듣는다”가 아니라 “주변 3차원 공간을 이해한 뒤 실제 행동을 만든다”에 가까움.

- 모델만 공개한 게 아니라, 양팔 로봇용 대규모 데이터셋도 같이 공개함
  - 몰모액트2-바이메뉴얼 YAM은 720시간 이상의 훈련 데이터를 담은 오픈소스 데이터셋임
  - 수건 개기, 식료품 스캔, 스마트폰 충전, 테이블 정리처럼 두 로봇 팔이 같이 해야 하는 작업을 포함함
  - 연구팀은 다양한 로봇 팔, 카메라 구성, 제어 방식, 작업 유형을 모델이 접하도록 추가 데이터셋도 보완했다고 설명함

- 몰모액트2는 영상 이해 모델 몰모2를 단순 확장한 게 아니라, 공간 추론 체화 모델 몰모2-ER을 기반으로 설계됨
  - 몰모2-ER은 이미지 기반 위치 지정, 물체 감지, 추상적 공간 추론, 다중 이미지 추론, 이미지·영상 기반 공간 질의응답 등 300만 개 이상 사례로 훈련됨
  - 여기에 전용 행동 모듈을 붙여 3차원 추론을 실제 로봇 동작 생성으로 연결함

- 실제 실험실 작업에도 적용 가능성을 테스트함
  - 스탠포드대 의대 르 콩 교수가 운영하는 콩랩과 협력해 시범 연구를 진행함
  - 콩랩은 크리스퍼(CRISPR) 연구 과정에서 시료 피펫팅, 실험 장소 간 이동, 고정밀 장비 조작 같은 정밀 작업이 필요함
  - 이런 작업은 작은 오류가 누적되면 전체 실험이 망가질 수 있는데, 스탠포드 연구팀은 몰모액트2가 실험실 보조 작업에서 강한 잠재력을 보였다고 평가함

---

## 기술 맥락

- 로봇 모델에서 어려운 부분은 언어 이해보다 현실 세계의 불확실성이에요. 같은 “스마트폰을 충전해”라는 명령도 케이블 위치, 포트 방향, 손의 접근 경로를 계속 판단해야 하거든요.

- 몰모액트2가 공간 추론을 강조하는 이유도 여기에 있어요. 물체까지의 거리나 빈 공간을 잘못 이해하면, 모델이 아무리 명령을 잘 해석해도 실제 로봇은 실패하거나 장비를 망가뜨릴 수 있어요.

- 720시간짜리 양팔 로봇 데이터셋을 같이 공개한 것도 중요해요. 로봇은 텍스트만으로 학습하기 어렵고, 실제 팔이 협력해서 움직이는 시연 데이터가 있어야 행동 패턴을 배울 수 있거든요.

- 실험실 적용 사례가 나온 건 단순 데모 이상의 의미가 있어요. 크리스퍼 실험처럼 오류 비용이 큰 환경에서 쓸 수 있다면, 제조·물류·연구 자동화에서도 비슷한 방식의 검증이 이어질 가능성이 커요.

## 핵심 포인트

- 몰모액트2는 행동 추론 모델 구조를 기반으로 자연어 명령을 물리적 행동으로 바꾼다
- 공간 이해 능력 13개 국제 기준에서 GPT-5와 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다
- 양팔 로봇 시연 데이터셋 몰모액트2-바이메뉴얼 YAM은 720시간 이상 훈련 데이터를 담았다

## 인사이트

로봇 AI에서 이제 중요한 건 ‘말을 알아듣는가’보다 ‘공간을 제대로 보고 실패하지 않고 움직이는가’로 넘어가고 있다. 오픈소스로 모델과 데이터셋을 같이 푼 점은 로봇 연구팀이나 제조 자동화 쪽 개발자에게 꽤 큰 신호다.