샤오미, 자율주행 AI 프레임워크 원브이엘 오픈소스 예고

ai-ml 2026-05-16 약 5분

 tags

#autonomous-driving #vla #world-model #open-source #inference

vote

북마크

샤오미가 자율주행용 인공지능 프레임워크 원브이엘을 공개하고 모델과 코드베이스를 오픈소스로 풀겠다고 밝혔다. 핵심은 언어 추론, 미래 시각 예측, 잠재공간 추론을 한 번의 추론 단계 안에 묶어 주행 판단의 정확도와 속도를 동시에 끌어올리겠다는 접근이다.

1
원브이엘은 비전-언어-행동 모델, 월드모델, 잠재공간 추론을 통합한 자율주행 프레임워크다
2
샤오미는 언어만 압축하면 주행에 필요한 공간·시간 정보가 손실될 수 있다고 봤다
3
미래 시각 장면 예측을 함께 학습시켜 복잡한 도로 상황을 더 잘 이해하고 예측하게 만드는 구조다
4
샤오미는 주요 자율주행 추론·계획 벤치마크에서 기존 잠재공간 추론 방식보다 높은 정확도를 냈다고 주장했다
5
레이쥔은 모델과 코드베이스를 전면 오픈소스로 공개하겠다고 밝혔다

샤오미가 자율주행용 인공지능 프레임워크 ‘원브이엘’을 공개함
- 5월 13일 공개된 프레임워크고, 레이쥔 샤오미 창업자 겸 최고경영자는 모델과 코드베이스를 전면 오픈소스로 공개하겠다고 밝힘
- 목표는 전 세계 개발자와 연구자가 자율주행용 대규모 인공지능 모델 개발에 참여할 수 있게 만드는 것
원브이엘의 핵심은 자율주행 판단을 ‘언어 추론만으로는 부족하다’고 본 데 있음
- 샤오미는 실제 주행에서는 차량 움직임, 도로 구조, 장애물 변화가 복잡한 공간·시간 관계로 엮인다고 설명함
- 그래서 압축된 언어 표현만 쓰면 주행에 필요한 구조적 정보가 손실될 수 있다고 봄
그래서 원브이엘은 언어, 시각, 행동을 한 프레임워크 안에 묶음
- 비전-언어-행동 모델, 월드모델, 잠재공간 추론을 통합한 구조임
- 모델이 내부 표현 체계에서 사고하고, 미래 시각 장면을 예측하고, 전체 추론 과정을 단일 단계로 압축하는 게 핵심
특히 ‘미래 시각 장면 예측’을 직접 학습에 넣은 점이 포인트임
- 샤오미는 미래 장면을 압축해 예측하면 실제 주행 결과와 가까운 정보를 더 잘 보존할 수 있다고 설명함
- 말로만 “앞차가 끼어들 수 있음”이라고 판단하는 게 아니라, 시각 세계가 어떻게 변할지까지 같이 모델링하겠다는 얘기임

❗중요

> 샤오미의 주장은 원브이엘이 기존 잠재공간 추론 방식보다 자율주행 추론·계획 벤치마크에서 더 높은 정확도를 냈고, 명시적 체인 오브 소트 방식보다 성능이 좋으면서도 경량 예측 모델에 가까운 추론 속도를 유지했다는 것임.

오픈소스 공개가 실제로 이뤄지면 자율주행 연구 생태계에 꽤 큰 떡밥이 될 수 있음
- 자동차 회사가 내부 연구 성과를 논문 수준에서 소개하는 것과, 모델·코드베이스를 개발자들이 직접 돌려보게 하는 건 완전히 다른 얘기임
- 다만 기사에는 벤치마크 이름, 수치, 비교 환경이 구체적으로 나오지 않아서 성능 주장은 공개 후 검증이 필요함

기술 맥락

샤오미가 원브이엘에서 고른 방향은 ‘언어로 설명 가능한 추론’과 ‘시각적으로 미래를 예측하는 능력’을 같이 쓰는 거예요. 자율주행은 설명만 잘한다고 되는 문제가 아니라, 몇 초 뒤 도로 위 객체들이 어떻게 움직일지 맞혀야 하거든요.
기존 체인 오브 소트 방식은 추론 과정을 명시적으로 늘어놓을 수 있어서 해석에는 유리해요. 그런데 자율주행처럼 지연 시간이 중요한 환경에서는 추론이 길어질수록 부담이 커지고, 실제 센서 장면의 구조 정보가 언어로 압축되면서 빠질 수 있어요.
원브이엘은 이 문제를 잠재공간에서 풀려는 쪽이에요. 원본 이미지나 긴 언어 추론을 그대로 끌고 가기보다, 모델 내부 표현에 미래 시각 예측과 언어 추론을 같이 넣어서 판단 속도와 정보 보존 사이의 균형을 잡으려는 거죠.
개발자 입장에서 재미있는 지점은 오픈소스 공개예요. 자율주행 모델은 데이터, 시뮬레이션, 평가 기준이 워낙 폐쇄적인 편이라서, 코드가 나오면 실제 벤치마크 재현성과 구조적 장단점을 확인할 수 있는 재료가 생겨요.

자율주행 쪽 인공지능 경쟁이 이제 ‘차선 인식 잘함’ 수준을 넘어, 모델이 미래 장면을 상상하고 그걸 행동 계획에 바로 녹이는 방향으로 가는 중이다. 샤오미가 실제 코드까지 공개하면 연구자 입장에선 꽤 흥미로운 비교 기준이 생긴다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

샤오미, 자율주행 AI 프레임워크 원브이엘 오픈소스 예고

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

샤오미, 자율주행 AI 프레임워크 원브이엘 오픈소스 예고

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사