본문으로 건너뛰기
피드

크라우드웍스, 로봇 학습 데이터 겨냥한 피지컬 AI 데이터랩 열었다

ai-ml 약 4분
vote
0
댓글
북마크

크라우드웍스가 로봇·자율주행·제조 환경에서 쓰이는 피지컬 AI 학습 데이터를 만들기 위해 사내 데이터랩을 신설했다. 유니트리 휴머노이드 로봇을 도입하고 텔레오퍼레이션, 모션캡처, 매니퓰레이터 방식으로 관절 궤적·힘·시각 정보를 수집할 계획이다.

  • 1

    피지컬 AI 데이터랩은 로봇과 현실 환경용 멀티모달 학습 데이터 연구개발을 목표로 한다

  • 2

    유니트리 휴머노이드 로봇을 도입해 행동·센서 데이터를 직접 수집한다

  • 3

    A1 데이터 마켓플레이스는 이미 100테라바이트 이상 규모의 로봇 관련 데이터를 유통 중이다

  • 크라우드웍스가 사내에 ‘피지컬AI 데이터랩’을 만들었음

    • 목표는 로봇, 자율주행, 제조처럼 물리 환경에서 작동하는 피지컬 AI용 학습 데이터를 연구개발하고 실증하는 것임
    • 텍스트 데이터 라벨링을 넘어 로봇 행동 데이터 쪽으로 시장을 넓히겠다는 움직임으로 볼 수 있음
  • 데이터 수집 장비로 유니트리 휴머노이드 로봇을 도입함

    • 텔레오퍼레이션, 즉 사람이 원격으로 로봇을 조종하는 방식으로 데이터를 모음
    • 모션캡처와 로봇 팔을 활용한 매니퓰레이터 방식도 병행함
    • 수집 대상은 관절 궤적, 힘, 시각 정보 같은 인간 행동·로봇 센서 데이터임

중요

> 로봇 AI에서 진짜 비싼 건 모델 코드보다 “좋은 행동 데이터”임. 어떤 센서로, 어떤 상황에서, 어떤 행동을 기록했는지가 성능을 크게 가름함.

  • 크라우드웍스가 만들려는 데이터셋은 꽤 구체적임

    • 이기종 로봇 시각언어행동(VLA) 데이터
    • 도메인별 시나리오 기반 에피소드 데이터셋
    • 로봇이 1인칭 시점에서 수집하는 자아중심적 데이터도 개발 속도를 낼 계획임
  • 확보한 데이터는 ‘A1 데이터 마켓플레이스’를 통해 전 세계 로봇 기업에 공급할 예정임

    • 이 플랫폼은 AI 기업이 필요한 데이터를 직접 거래할 수 있는 구조임
    • 이미 그리퍼 기반 양팔 로봇 데이터, 센서 글러브 기반 데이터셋, 10개 손가락 로봇 데이터셋 등을 유통 중임
    • 전체 규모는 100테라바이트 이상이라고 밝힘
  • 회사는 피지컬 AI 전담팀까지 꾸려 관련 데이터 구축 사업에 집중할 계획임

    • 이준호 COO는 휴머노이드 로봇 등 첨단 산업 현장에 최적화된 데이터 솔루션을 공급하겠다고 말함
    • 결국 로봇 기업이 자체적으로 모든 데이터를 만들기 어렵다는 지점을 데이터 사업 기회로 보는 셈임

기술 맥락

  • Physical AI는 기존 생성형 AI와 데이터의 성격이 달라요. 텍스트는 인터넷에서 많이 모을 수 있지만, 로봇 행동 데이터는 실제 장비와 센서, 사람이 개입한 시나리오가 필요하거든요.

  • teleoperation이 중요한 이유는 로봇에게 좋은 행동 예시를 만들어주기 위해서예요. 사람이 원격으로 조종하며 “이 상황에서는 이렇게 잡고 움직인다”는 데이터를 쌓아야 모델이 행동 패턴을 배울 수 있어요.

  • VLA 데이터가 언급된 것도 자연스러워요. 로봇이 카메라로 보고, 언어 지시를 이해하고, 팔이나 손으로 행동하려면 시각·언어·행동이 한 데이터 흐름 안에 묶여야 해요.

  • 100테라바이트 이상 데이터 마켓플레이스를 강조한 건 규모 경쟁의 신호예요. 로봇 AI는 특정 모델 하나보다 다양한 환경과 장비에서 수집된 에피소드 데이터가 쌓일수록 실사용 가능성이 커져요.

LLM 다음 전장은 화면 안의 텍스트가 아니라 현실 세계의 행동 데이터다. 로봇 학습에서는 ‘모델’보다 ‘어떤 상황에서 어떤 센서와 행동을 어떻게 기록했는가’가 더 귀한 자산이 될 가능성이 크다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

대학생들은 이미 챗지피티와 제미나이를 쪼개 쓰는 ‘AI 네이티브’가 됐다

이화여대 학생 설문과 인터뷰를 보면 생성형 AI는 과제 보조 도구를 넘어 학습, 글쓰기, 자료조사, 감정 상담까지 들어온 일상 인프라가 됐다. 학생들은 챗지피티, 제미나이, 클로드, 퍼플렉시티를 용도별로 나눠 쓰면서도 환각과 오류 때문에 교차검증이 필요하다고 보고 있다. 대학의 윤리 지침은 존재하지만 학생 체감은 낮고, 이제는 금지보다 활용 교육과 평가 방식 재설계가 핵심 이슈로 떠올랐다.

ai-ml

AI 에이전트 시대, 진짜 해자는 코딩 실력이 아니라 도메인 지식이다

이 글은 에이전트형 AI가 소프트웨어 개발의 병목을 “만들 수 있나”에서 “맞는지 판단할 수 있나”로 옮겼다고 주장한다. 일반ist 엔지니어의 코드 생산 능력보다, 특정 도메인의 정답을 알아보고 검증할 수 있는 사람이 더 큰 가치를 갖게 된다는 얘기다.

ai-ml

OpenRouter, 시리즈 B에서 1억1300만 달러 조달…멀티 모델 AI 인프라 판 커진다

OpenRouter가 알파벳 성장펀드 CapitalG 주도로 1억1300만 달러 규모 시리즈 B 투자를 받았다. 최근 6개월간 주간 처리량이 5조 토큰에서 25조 토큰으로 5배 늘었고, 올해 1천조 토큰 이상을 처리하는 속도로 성장 중이라고 밝혔다.

ai-ml

테슬라 FSD, 중국서 첫 집단 사기 소송 심리 시작

중국 베이징 법원이 테슬라의 풀 셀프 드라이빙 판매 약속을 둘러싼 소비자 사기 소송 첫 심리를 열었다. 원고 10명은 2019~2021년에 약 5만6천 위안을 내고 FSD를 샀지만, 실제 중국 출시 기능은 구형 하드웨어 차량을 배제했고 완전 자율주행도 제공하지 못했다고 주장한다. 중국 소비자보호법상 사기로 인정되면 환불뿐 아니라 3배 배상까지 이어질 수 있어 파장이 크다.

ai-ml

안도르 제작자, 1,500쪽 대본 공개 접은 이유는 “AI 학습 데이터 되기 싫어서”

스타워즈 드라마 안도르의 쇼러너 토니 길로이가 준비해둔 1,500쪽짜리 대본·콘셉트 아트 공개 계획을 접었다. 이유는 단순하다. 공개하는 순간 AI 모델 학습 데이터로 빨려 들어갈 수 있다는 우려 때문이다. 헐리우드 창작자와 스튜디오, AI 기업 사이의 저작권·학습 데이터 갈등이 다시 선명하게 드러난 사례다.