본문으로 건너뛰기
피드

앨런 AI연구소, 실세계 로봇용 오픈소스 모델 ‘몰모액트2’ 공개

ai-ml 약 5분
vote
0
댓글
북마크

앨런 AI연구소가 로봇이 3차원 환경을 이해하고 실제 행동으로 옮기도록 돕는 오픈소스 파운데이션 모델 몰모액트2를 공개했다. 기존 로봇 모델보다 일부 실세계 과제를 최대 37배 빠르게 처리하고, 720시간 이상 양팔 로봇 훈련 데이터도 함께 내놨다.

  • 1

    몰모액트2는 행동 추론 모델 구조를 기반으로 자연어 명령을 물리적 행동으로 바꾼다

  • 2

    공간 이해 능력 13개 국제 기준에서 GPT-5와 제미나이 로보틱스를 앞섰다고 연구팀은 밝혔다

  • 3

    양팔 로봇 시연 데이터셋 몰모액트2-바이메뉴얼 YAM은 720시간 이상 훈련 데이터를 담았다

  • 앨런 AI연구소가 실세계 로봇용 오픈소스 파운데이션 모델 ‘몰모액트2’를 공개함

    • 작년 8월 공개한 몰모액트의 후속 모델이고, 로봇이 행동하기 전에 3차원 환경을 추론하는 행동 추론 모델(ARM) 계열임
    • 복잡한 자연어 명령을 현실에서 실행 가능한 물리적 행동 단계로 바꾸는 게 핵심임
  • 성능 주장도 꽤 공격적임. 기존 로봇 모델보다 다양한 실세계 과제를 최대 37배 빠르게 처리한다고 함

    • 연구 논문은 아카이브에 ‘MolmoAct2, Action Reasoning Models for Real-world Deployment’라는 제목으로 올라감
    • 물체까지의 거리, 빈 공간 위치, 여러 카메라 화면 사이의 물체 연결 같은 공간 이해 능력이 강조됨
    • 연구팀은 공간 이해 관련 국제 기준 13개 항목에서 GPT-5와 구글 제미나이 로보틱스를 앞섰다고 밝힘

중요

> 몰모액트2의 포인트는 “로봇이 말귀를 알아듣는다”가 아니라 “주변 3차원 공간을 이해한 뒤 실제 행동을 만든다”에 가까움.

  • 모델만 공개한 게 아니라, 양팔 로봇용 대규모 데이터셋도 같이 공개함

    • 몰모액트2-바이메뉴얼 YAM은 720시간 이상의 훈련 데이터를 담은 오픈소스 데이터셋임
    • 수건 개기, 식료품 스캔, 스마트폰 충전, 테이블 정리처럼 두 로봇 팔이 같이 해야 하는 작업을 포함함
    • 연구팀은 다양한 로봇 팔, 카메라 구성, 제어 방식, 작업 유형을 모델이 접하도록 추가 데이터셋도 보완했다고 설명함
  • 몰모액트2는 영상 이해 모델 몰모2를 단순 확장한 게 아니라, 공간 추론 체화 모델 몰모2-ER을 기반으로 설계됨

    • 몰모2-ER은 이미지 기반 위치 지정, 물체 감지, 추상적 공간 추론, 다중 이미지 추론, 이미지·영상 기반 공간 질의응답 등 300만 개 이상 사례로 훈련됨
    • 여기에 전용 행동 모듈을 붙여 3차원 추론을 실제 로봇 동작 생성으로 연결함
  • 실제 실험실 작업에도 적용 가능성을 테스트함

    • 스탠포드대 의대 르 콩 교수가 운영하는 콩랩과 협력해 시범 연구를 진행함
    • 콩랩은 크리스퍼(CRISPR) 연구 과정에서 시료 피펫팅, 실험 장소 간 이동, 고정밀 장비 조작 같은 정밀 작업이 필요함
    • 이런 작업은 작은 오류가 누적되면 전체 실험이 망가질 수 있는데, 스탠포드 연구팀은 몰모액트2가 실험실 보조 작업에서 강한 잠재력을 보였다고 평가함

기술 맥락

  • 로봇 모델에서 어려운 부분은 언어 이해보다 현실 세계의 불확실성이에요. 같은 “스마트폰을 충전해”라는 명령도 케이블 위치, 포트 방향, 손의 접근 경로를 계속 판단해야 하거든요.

  • 몰모액트2가 공간 추론을 강조하는 이유도 여기에 있어요. 물체까지의 거리나 빈 공간을 잘못 이해하면, 모델이 아무리 명령을 잘 해석해도 실제 로봇은 실패하거나 장비를 망가뜨릴 수 있어요.

  • 720시간짜리 양팔 로봇 데이터셋을 같이 공개한 것도 중요해요. 로봇은 텍스트만으로 학습하기 어렵고, 실제 팔이 협력해서 움직이는 시연 데이터가 있어야 행동 패턴을 배울 수 있거든요.

  • 실험실 적용 사례가 나온 건 단순 데모 이상의 의미가 있어요. 크리스퍼 실험처럼 오류 비용이 큰 환경에서 쓸 수 있다면, 제조·물류·연구 자동화에서도 비슷한 방식의 검증이 이어질 가능성이 커요.

로봇 AI에서 이제 중요한 건 ‘말을 알아듣는가’보다 ‘공간을 제대로 보고 실패하지 않고 움직이는가’로 넘어가고 있다. 오픈소스로 모델과 데이터셋을 같이 푼 점은 로봇 연구팀이나 제조 자동화 쪽 개발자에게 꽤 큰 신호다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.