앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개

ai-ml 2026-05-21 약 5분

 tags

#robotics #foundation-model #open-source #spatial-reasoning #dataset

vote

북마크

앨런 AI연구소가 로봇이 3차원 환경을 이해하고 실제 행동으로 옮기도록 돕는 오픈소스 파운데이션 모델 몰모액트2를 공개했다. 기존 로봇 모델보다 일부 실세계 과제를 최대 37배 빠르게 처리하고, 720시간 이상 양팔 로봇 훈련 데이터도 함께 내놨다.

1
몰모액트2는 행동 추론 모델 구조를 기반으로 자연어 명령을 물리적 행동으로 바꾼다
2
공간 이해 능력 13개 국제 기준에서 GPT-5와 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다
3
양팔 로봇 시연 데이터셋 몰모액트2-바이메뉴얼 YAM은 720시간 이상 훈련 데이터를 담았다

앨런 AI연구소가 실세계 로봇용 오픈소스 파운데이션 모델 ‘몰모액트2’를 공개함
- 작년 8월 공개한 몰모액트의 후속 모델이고, 로봇이 행동하기 전에 3차원 환경을 추론하는 행동 추론 모델(ARM) 계열임
- 복잡한 자연어 명령을 현실에서 실행 가능한 물리적 행동 단계로 바꾸는 게 핵심임
성능 주장도 꽤 공격적임. 기존 로봇 모델보다 다양한 실세계 과제를 최대 37배 빠르게 처리한다고 함
- 연구 논문은 아카이브에 ‘MolmoAct2, Action Reasoning Models for Real-world Deployment’라는 제목으로 올라감
- 물체까지의 거리, 빈 공간 위치, 여러 카메라 화면 사이의 물체 연결 같은 공간 이해 능력이 강조됨
- 연구팀은 공간 이해 관련 국제 기준 13개 항목에서 GPT-5와 구글 제미나이 로보틱스를 앞섰다고 밝힘

❗중요

> 몰모액트2의 포인트는 “로봇이 말귀를 알아듣는다”가 아니라 “주변 3차원 공간을 이해한 뒤 실제 행동을 만든다”에 가까움.

모델만 공개한 게 아니라, 양팔 로봇용 대규모 데이터셋도 같이 공개함
- 몰모액트2-바이메뉴얼 YAM은 720시간 이상의 훈련 데이터를 담은 오픈소스 데이터셋임
- 수건 개기, 식료품 스캔, 스마트폰 충전, 테이블 정리처럼 두 로봇 팔이 같이 해야 하는 작업을 포함함
- 연구팀은 다양한 로봇 팔, 카메라 구성, 제어 방식, 작업 유형을 모델이 접하도록 추가 데이터셋도 보완했다고 설명함
몰모액트2는 영상 이해 모델 몰모2를 단순 확장한 게 아니라, 공간 추론 체화 모델 몰모2-ER을 기반으로 설계됨
- 몰모2-ER은 이미지 기반 위치 지정, 물체 감지, 추상적 공간 추론, 다중 이미지 추론, 이미지·영상 기반 공간 질의응답 등 300만 개 이상 사례로 훈련됨
- 여기에 전용 행동 모듈을 붙여 3차원 추론을 실제 로봇 동작 생성으로 연결함
실제 실험실 작업에도 적용 가능성을 테스트함
- 스탠포드대 의대 르 콩 교수가 운영하는 콩랩과 협력해 시범 연구를 진행함
- 콩랩은 크리스퍼(CRISPR) 연구 과정에서 시료 피펫팅, 실험 장소 간 이동, 고정밀 장비 조작 같은 정밀 작업이 필요함
- 이런 작업은 작은 오류가 누적되면 전체 실험이 망가질 수 있는데, 스탠포드 연구팀은 몰모액트2가 실험실 보조 작업에서 강한 잠재력을 보였다고 평가함

기술 맥락

로봇 모델에서 어려운 부분은 언어 이해보다 현실 세계의 불확실성이에요. 같은 “스마트폰을 충전해”라는 명령도 케이블 위치, 포트 방향, 손의 접근 경로를 계속 판단해야 하거든요.
몰모액트2가 공간 추론을 강조하는 이유도 여기에 있어요. 물체까지의 거리나 빈 공간을 잘못 이해하면, 모델이 아무리 명령을 잘 해석해도 실제 로봇은 실패하거나 장비를 망가뜨릴 수 있어요.
720시간짜리 양팔 로봇 데이터셋을 같이 공개한 것도 중요해요. 로봇은 텍스트만으로 학습하기 어렵고, 실제 팔이 협력해서 움직이는 시연 데이터가 있어야 행동 패턴을 배울 수 있거든요.
실험실 적용 사례가 나온 건 단순 데모 이상의 의미가 있어요. 크리스퍼 실험처럼 오류 비용이 큰 환경에서 쓸 수 있다면, 제조·물류·연구 자동화에서도 비슷한 방식의 검증이 이어질 가능성이 커요.

로봇 AI에서 이제 중요한 건 ‘말을 알아듣는가’보다 ‘공간을 제대로 보고 실패하지 않고 움직이는가’로 넘어가고 있다. 오픈소스로 모델과 데이터셋을 같이 푼 점은 로봇 연구팀이나 제조 자동화 쪽 개발자에게 꽤 큰 신호다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사