본문으로 건너뛰기
피드

네이버랩스의 3D 비전 모델 더스터, 로봇판 ‘챗GPT 모먼트’ 노린다

ai-ml 약 7분
vote
0
댓글
북마크

네이버랩스 유럽이 개발한 3D 비전 파운데이션 모델 ‘더스터’가 사진 몇 장만으로 공간을 3차원으로 재구성하는 기술로 주목받고 있다. 네이버는 이 모델을 오픈소스로 공개했고, 2년 만에 논문 피인용 1418건을 기록하며 메타·구글·엔비디아 후속 연구에도 활용되고 있다.

  • 1

    더스터는 2D 이미지를 바탕으로 3D 공간, 깊이 정보, 카메라 위치 같은 기하학 정보를 추출

  • 2

    네이버랩스는 상업화보다 연구 생태계 확장을 위해 오픈소스 공개를 선택

  • 3

    공개 2년 만에 피인용 1418건을 기록하고 글로벌 빅테크 후속 연구에 활용

  • 4

    네이버 지도 거리뷰, 네이버페이 부동산 AR, 로봇 공간 인식 등으로 확장 가능

사진 몇 장으로 3D 공간을 만드는 모델

  • 네이버랩스가 만든 3D 비전 파운데이션 모델 ‘더스터(DUSt3R)’가 로봇 분야의 ‘챗GPT 모먼트’로 소개됨

    • 오피스 실내 사진 한 장을 올리면, 실제 공간을 둘러보는 것처럼 3차원 구조와 사물이 화면에 구현됨
    • 인터뷰에 나온 제롬 르보 네이버랩스 유럽 연구원은 로봇 분야에 파운데이션 모델이 들어오는 걸 판도를 바꾸는 일로 봄
  • 더스터가 하는 일은 단순히 “사진을 예쁘게 3D로 바꾸는 것”보다 훨씬 기술적임

    • 2D 이미지를 바탕으로 공간 정보를 파악하고 3차원 데이터를 만들어냄
    • 깊이 정보, 카메라 위치 같은 기하학 정보까지 추출함
    • 로봇 입장에서는 물체를 알아보는 수준을 넘어, 방향과 거리감까지 이해하는 ‘눈’을 얻는 셈
  • 이게 로봇에 중요한 이유는 현실 세계가 텍스트보다 훨씬 지저분하기 때문임

    • 로봇은 눈앞 물체를 식별하는 것만으로는 부족함
    • 어디로 움직여야 하는지, 물체와 얼마나 떨어져 있는지, 공간 구조가 어떻게 생겼는지까지 같이 이해해야 함
    • 더스터는 3D 비전에 딥러닝을 적용해 AI가 물리적 요소를 스스로 학습하도록 만든 접근임

중요

> 더스터의 핵심은 “2D 이미지를 3D로 변환”이 아니라, 깊이·카메라 위치·공간 구조를 한 모델에서 같이 뽑아내는 데 있음.

왜 ‘챗GPT 모먼트’라는 표현이 나왔나

  • 제롬 르보 연구원은 더스터를 자연어 처리(NLP)의 챗GPT 등장에 비유함

    • 예전 NLP는 번역, 감정 분석, 요약처럼 작업별로 나뉘어 있었음
    • 챗GPT 같은 텍스트 파운데이션 모델이 나오면서 하나의 모델이 여러 작업을 더 잘 처리하는 흐름이 생김
    • 더스터도 기존의 여러 3D 비전 과제를 단일 모델로 풀 수 있는 길을 열었다는 평가
  • 이 비유가 과장만은 아닌 이유는 후속 연구 반응이 꽤 큼

    • 더스터는 공개된 지 2년 만에 논문 피인용 수 1418건을 기록함
    • 메타, 구글, 엔비디아 같은 글로벌 빅테크도 더스터를 기반으로 후속 연구를 진행 중
    • 네이버가 한국 기업이라는 점을 감안하면, 이건 국내 개발자 입장에서도 꽤 자랑할 만한 포인트임

네이버가 오픈소스로 푼 이유

  • 네이버랩스는 더스터를 바로 상업화하는 대신 오픈소스로 공개함

    • 3D 비전 파운데이션 모델을 빠르게 고도화하려면 연구 생태계 확장이 먼저라고 판단한 것
    • 르보 연구원은 기술을 공개하면 전 세계 학술 연구 역량을 모을 수 있고, 모델 개선 속도도 빨라진다고 설명함
  • 오픈소스 공개는 네이버 브랜드에도 장기 이득이 된다는 계산이 깔려 있음

    • 논문 인용과 후속 연구가 늘수록 네이버랩스의 기술 존재감이 커짐
    • 당장 라이선스 수익을 노리는 것보다, 공간 지능 분야의 기준점으로 자리 잡는 쪽을 택한 셈

ℹ️참고

> 더스터가 2년 만에 피인용 1418건을 찍었다는 건, 단순 데모가 아니라 연구자들이 실제 후속 작업의 기반으로 쓰고 있다는 뜻에 가깝다.

서비스 적용처는 지도, 부동산, 로봇까지 넓음

  • 네이버는 더스터를 바탕으로 기존 서비스 고도화를 추진 중임

    • 네이버 지도 ‘거리뷰’를 더 풍부한 공간 정보 기반으로 개선할 수 있음
    • 네이버페이 부동산 매물 내부 사진을 증강현실(AR)로 구현하는 활용도 언급됨
    • 사진만 남아 있는 과거 유적지를 3차원 콘텐츠로 재현하는 시나리오도 가능성으로 나옴
  • 3D 인테리어 조감도 같은 실용적인 활용처도 바로 떠오름

    • 현재는 공간 데이터를 만들려면 촬영·스캔·모델링 비용이 꽤 들어감
    • 사진 몇 장으로 3D 정보를 뽑아낼 수 있으면, 콘텐츠 제작 비용과 진입 장벽이 확 낮아짐
  • 최종 목표는 산업 현장에서 로봇이 실제로 잘 움직이게 만드는 기반 기술임

    • 제롬 연구원은 로봇이 대규모 언어 모델(LLM) 그 이상이라고 말함
    • 로봇은 시각, 음성 등 여러 센서 데이터를 통합해야 하고, 여러 로봇 간 협업이나 물리적 상호작용까지 처리해야 함
    • 그래서 네이버랩스 유럽은 공간 지능과 로봇 인식 기반을 핵심 과제로 보고 있음

기술 맥락

  • 더스터가 흥미로운 건 3D 비전의 여러 문제를 따로따로 풀지 않고, 하나의 파운데이션 모델로 묶으려 한다는 점이에요. 예전에는 깊이 추정, 카메라 위치 추정, 3D 재구성 같은 작업이 각각 다른 파이프라인으로 다뤄지는 경우가 많았거든요.

  • 네이버랩스가 이걸 로봇 쪽 핵심 기술로 보는 이유는 로봇이 텍스트만 이해해서는 현실 공간에서 움직일 수 없기 때문이에요. 로봇은 물체가 무엇인지뿐 아니라 어디에 있고, 얼마나 떨어져 있고, 어떤 경로로 접근해야 하는지까지 알아야 해요.

  • 오픈소스 공개를 택한 것도 기술 전략상 의미가 있어요. 3D 비전 파운데이션 모델은 데이터, 벤치마크, 후속 연구가 많이 붙을수록 빨리 좋아지는데, 폐쇄적으로 들고 있으면 생태계 확장 속도가 느려질 수 있거든요.

  • 네이버 서비스와의 연결도 꽤 현실적이에요. 지도 거리뷰, 부동산 실내 사진, AR 콘텐츠는 모두 2D 이미지에서 공간 구조를 이해해야 가치가 커지는 영역이라서, 더스터 같은 모델이 실제 제품 레이어로 내려올 여지가 있어요.

로봇이 진짜 세상에서 움직이려면 언어만 잘해서는 부족하고, 공간을 이해하는 ‘눈’이 필요하다. 더스터가 중요한 이유는 3D 비전 과제를 하나의 파운데이션 모델로 묶어, 로봇·지도·부동산·AR 서비스의 공통 기반이 될 수 있다는 점이다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

건설업계도 피지컬 AI 실험 중, 관건은 로봇보다 현장 데이터다

국내 건설사들이 인공지능(AI)과 로보틱스를 건설 현장에 적용하려는 실험을 늘리고 있다. GS건설은 로봇을 활용한 자재 운반·반복 작업 자동화를 검토하고, 현대건설은 AI 카메라 기반 안전 기술을 도입하려는 중이다. 다만 실제 안착까지는 사람과 AI의 협업 방식, 현장 작업자의 데이터 활용 체계 같은 숙제가 남아 있다.

ai-ml

AI 모델 접속도 수출통제 대상이 되면 벌어지는 일

앤트로픽이 미국 정부 수출통제 지침에 따라 최신 AI 모델 접근을 출시 사흘 만에 차단했다는 사례를 통해, 클라우드 AI 모델 접근권이 국가 안보와 산업정책에 종속될 수 있다는 문제가 드러났다. 데이터 주권만으로는 부족하고, 모델 능력과 연산 접근권까지 포함한 소버린 AI 전략이 필요하다는 논점이다.

ai-ml

건설 현장에 AI 로봇이 들어오려면 아직 데이터와 협업 방식이 숙제

GS건설, 현대건설, 삼성물산 등 국내 건설사가 AI와 로봇 기술을 현장 자동화와 안전관리, 단지 서비스에 적용하려는 움직임을 보이고 있다. 다만 사람과 로봇이 함께 일하는 방식, 실증 사례 축적, 현장 작업자의 데이터 활용 체계가 갖춰져야 실제 확산이 가능하다는 지적이 나온다.

ai-ml

라벨링 1천 장을 100장으로 줄인다는 슈퍼브에이아이의 비전 AI 플랫폼

슈퍼브에이아이가 2026 스마트테크 코리아에서 데이터 구축부터 모델 개발, 운영까지 묶은 슈퍼브 플랫폼을 공개했다. 비전 파운데이션 모델로 라벨링 부담을 줄이고, 대규모 언어 모델과 비디오 언어 모델을 결합해 텍스트 명령만으로 CCTV 속 위험 상황을 찾는 기능까지 제시했다.

ai-ml

프롬프트만으로 게임 만드는 시대, 진짜 어디까지 왔나

AI가 이미지·영상·코드 생성을 넘어, 탐험 가능한 3D 세계와 게임 프로토타입까지 만들기 시작했다. 구글 딥마인드의 프로젝트 지니부터 오버데어, 버스에잇, 바르코까지 사례는 늘고 있지만, 물리 오류·레이턴시·최적화·조작감 같은 완성도 문제는 아직 사람 몫으로 남아 있다.