본문으로 건너뛰기
피드

샤오미, 자율주행 AI 프레임워크 원브이엘 오픈소스 예고

ai-ml 약 5분
vote
0
댓글
북마크

샤오미가 자율주행용 인공지능 프레임워크 원브이엘을 공개하고 모델과 코드베이스를 오픈소스로 풀겠다고 밝혔다. 핵심은 언어 추론, 미래 시각 예측, 잠재공간 추론을 한 번의 추론 단계 안에 묶어 주행 판단의 정확도와 속도를 동시에 끌어올리겠다는 접근이다.

  • 1

    원브이엘은 비전-언어-행동 모델, 월드모델, 잠재공간 추론을 통합한 자율주행 프레임워크다

  • 2

    샤오미는 언어만 압축하면 주행에 필요한 공간·시간 정보가 손실될 수 있다고 봤다

  • 3

    미래 시각 장면 예측을 함께 학습시켜 복잡한 도로 상황을 더 잘 이해하고 예측하게 만드는 구조다

  • 4

    샤오미는 주요 자율주행 추론·계획 벤치마크에서 기존 잠재공간 추론 방식보다 높은 정확도를 냈다고 주장했다

  • 5

    레이쥔은 모델과 코드베이스를 전면 오픈소스로 공개하겠다고 밝혔다

  • 샤오미가 자율주행용 인공지능 프레임워크 ‘원브이엘’을 공개함

    • 5월 13일 공개된 프레임워크고, 레이쥔 샤오미 창업자 겸 최고경영자는 모델과 코드베이스를 전면 오픈소스로 공개하겠다고 밝힘
    • 목표는 전 세계 개발자와 연구자가 자율주행용 대규모 인공지능 모델 개발에 참여할 수 있게 만드는 것
  • 원브이엘의 핵심은 자율주행 판단을 ‘언어 추론만으로는 부족하다’고 본 데 있음

    • 샤오미는 실제 주행에서는 차량 움직임, 도로 구조, 장애물 변화가 복잡한 공간·시간 관계로 엮인다고 설명함
    • 그래서 압축된 언어 표현만 쓰면 주행에 필요한 구조적 정보가 손실될 수 있다고 봄
  • 그래서 원브이엘은 언어, 시각, 행동을 한 프레임워크 안에 묶음

    • 비전-언어-행동 모델, 월드모델, 잠재공간 추론을 통합한 구조임
    • 모델이 내부 표현 체계에서 사고하고, 미래 시각 장면을 예측하고, 전체 추론 과정을 단일 단계로 압축하는 게 핵심
  • 특히 ‘미래 시각 장면 예측’을 직접 학습에 넣은 점이 포인트임

    • 샤오미는 미래 장면을 압축해 예측하면 실제 주행 결과와 가까운 정보를 더 잘 보존할 수 있다고 설명함
    • 말로만 “앞차가 끼어들 수 있음”이라고 판단하는 게 아니라, 시각 세계가 어떻게 변할지까지 같이 모델링하겠다는 얘기임

중요

> 샤오미의 주장은 원브이엘이 기존 잠재공간 추론 방식보다 자율주행 추론·계획 벤치마크에서 더 높은 정확도를 냈고, 명시적 체인 오브 소트 방식보다 성능이 좋으면서도 경량 예측 모델에 가까운 추론 속도를 유지했다는 것임.

  • 오픈소스 공개가 실제로 이뤄지면 자율주행 연구 생태계에 꽤 큰 떡밥이 될 수 있음
    • 자동차 회사가 내부 연구 성과를 논문 수준에서 소개하는 것과, 모델·코드베이스를 개발자들이 직접 돌려보게 하는 건 완전히 다른 얘기임
    • 다만 기사에는 벤치마크 이름, 수치, 비교 환경이 구체적으로 나오지 않아서 성능 주장은 공개 후 검증이 필요함

기술 맥락

  • 샤오미가 원브이엘에서 고른 방향은 ‘언어로 설명 가능한 추론’과 ‘시각적으로 미래를 예측하는 능력’을 같이 쓰는 거예요. 자율주행은 설명만 잘한다고 되는 문제가 아니라, 몇 초 뒤 도로 위 객체들이 어떻게 움직일지 맞혀야 하거든요.

  • 기존 체인 오브 소트 방식은 추론 과정을 명시적으로 늘어놓을 수 있어서 해석에는 유리해요. 그런데 자율주행처럼 지연 시간이 중요한 환경에서는 추론이 길어질수록 부담이 커지고, 실제 센서 장면의 구조 정보가 언어로 압축되면서 빠질 수 있어요.

  • 원브이엘은 이 문제를 잠재공간에서 풀려는 쪽이에요. 원본 이미지나 긴 언어 추론을 그대로 끌고 가기보다, 모델 내부 표현에 미래 시각 예측과 언어 추론을 같이 넣어서 판단 속도와 정보 보존 사이의 균형을 잡으려는 거죠.

  • 개발자 입장에서 재미있는 지점은 오픈소스 공개예요. 자율주행 모델은 데이터, 시뮬레이션, 평가 기준이 워낙 폐쇄적인 편이라서, 코드가 나오면 실제 벤치마크 재현성과 구조적 장단점을 확인할 수 있는 재료가 생겨요.

자율주행 쪽 인공지능 경쟁이 이제 ‘차선 인식 잘함’ 수준을 넘어, 모델이 미래 장면을 상상하고 그걸 행동 계획에 바로 녹이는 방향으로 가는 중이다. 샤오미가 실제 코드까지 공개하면 연구자 입장에선 꽤 흥미로운 비교 기준이 생긴다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.