---
title: "네이버랩스의 3D 비전 모델 더스터, 로봇판 ‘챗GPT 모먼트’ 노린다"
published: 2026-05-05T08:52:02.787Z
canonical: https://jeff.news/article/2160
---
# 네이버랩스의 3D 비전 모델 더스터, 로봇판 ‘챗GPT 모먼트’ 노린다

네이버랩스 유럽이 개발한 3D 비전 파운데이션 모델 ‘더스터’가 사진 몇 장만으로 공간을 3차원으로 재구성하는 기술로 주목받고 있다. 네이버는 이 모델을 오픈소스로 공개했고, 2년 만에 논문 피인용 1418건을 기록하며 메타·구글·엔비디아 후속 연구에도 활용되고 있다.

## 사진 몇 장으로 3D 공간을 만드는 모델

- 네이버랩스가 만든 3D 비전 파운데이션 모델 ‘더스터(DUSt3R)’가 로봇 분야의 ‘챗GPT 모먼트’로 소개됨
  - 오피스 실내 사진 한 장을 올리면, 실제 공간을 둘러보는 것처럼 3차원 구조와 사물이 화면에 구현됨
  - 인터뷰에 나온 제롬 르보 네이버랩스 유럽 연구원은 로봇 분야에 파운데이션 모델이 들어오는 걸 판도를 바꾸는 일로 봄

- 더스터가 하는 일은 단순히 “사진을 예쁘게 3D로 바꾸는 것”보다 훨씬 기술적임
  - 2D 이미지를 바탕으로 공간 정보를 파악하고 3차원 데이터를 만들어냄
  - 깊이 정보, 카메라 위치 같은 기하학 정보까지 추출함
  - 로봇 입장에서는 물체를 알아보는 수준을 넘어, 방향과 거리감까지 이해하는 ‘눈’을 얻는 셈

- 이게 로봇에 중요한 이유는 현실 세계가 텍스트보다 훨씬 지저분하기 때문임
  - 로봇은 눈앞 물체를 식별하는 것만으로는 부족함
  - 어디로 움직여야 하는지, 물체와 얼마나 떨어져 있는지, 공간 구조가 어떻게 생겼는지까지 같이 이해해야 함
  - 더스터는 3D 비전에 딥러닝을 적용해 AI가 물리적 요소를 스스로 학습하도록 만든 접근임

> [!IMPORTANT]
> 더스터의 핵심은 “2D 이미지를 3D로 변환”이 아니라, 깊이·카메라 위치·공간 구조를 한 모델에서 같이 뽑아내는 데 있음.

## 왜 ‘챗GPT 모먼트’라는 표현이 나왔나

- 제롬 르보 연구원은 더스터를 자연어 처리(NLP)의 챗GPT 등장에 비유함
  - 예전 NLP는 번역, 감정 분석, 요약처럼 작업별로 나뉘어 있었음
  - 챗GPT 같은 텍스트 파운데이션 모델이 나오면서 하나의 모델이 여러 작업을 더 잘 처리하는 흐름이 생김
  - 더스터도 기존의 여러 3D 비전 과제를 단일 모델로 풀 수 있는 길을 열었다는 평가

- 이 비유가 과장만은 아닌 이유는 후속 연구 반응이 꽤 큼
  - 더스터는 공개된 지 2년 만에 논문 피인용 수 1418건을 기록함
  - 메타, 구글, 엔비디아 같은 글로벌 빅테크도 더스터를 기반으로 후속 연구를 진행 중
  - 네이버가 한국 기업이라는 점을 감안하면, 이건 국내 개발자 입장에서도 꽤 자랑할 만한 포인트임

## 네이버가 오픈소스로 푼 이유

- 네이버랩스는 더스터를 바로 상업화하는 대신 오픈소스로 공개함
  - 3D 비전 파운데이션 모델을 빠르게 고도화하려면 연구 생태계 확장이 먼저라고 판단한 것
  - 르보 연구원은 기술을 공개하면 전 세계 학술 연구 역량을 모을 수 있고, 모델 개선 속도도 빨라진다고 설명함

- 오픈소스 공개는 네이버 브랜드에도 장기 이득이 된다는 계산이 깔려 있음
  - 논문 인용과 후속 연구가 늘수록 네이버랩스의 기술 존재감이 커짐
  - 당장 라이선스 수익을 노리는 것보다, 공간 지능 분야의 기준점으로 자리 잡는 쪽을 택한 셈

> [!NOTE]
> 더스터가 2년 만에 피인용 1418건을 찍었다는 건, 단순 데모가 아니라 연구자들이 실제 후속 작업의 기반으로 쓰고 있다는 뜻에 가깝다.

## 서비스 적용처는 지도, 부동산, 로봇까지 넓음

- 네이버는 더스터를 바탕으로 기존 서비스 고도화를 추진 중임
  - 네이버 지도 ‘거리뷰’를 더 풍부한 공간 정보 기반으로 개선할 수 있음
  - 네이버페이 부동산 매물 내부 사진을 증강현실(AR)로 구현하는 활용도 언급됨
  - 사진만 남아 있는 과거 유적지를 3차원 콘텐츠로 재현하는 시나리오도 가능성으로 나옴

- 3D 인테리어 조감도 같은 실용적인 활용처도 바로 떠오름
  - 현재는 공간 데이터를 만들려면 촬영·스캔·모델링 비용이 꽤 들어감
  - 사진 몇 장으로 3D 정보를 뽑아낼 수 있으면, 콘텐츠 제작 비용과 진입 장벽이 확 낮아짐

- 최종 목표는 산업 현장에서 로봇이 실제로 잘 움직이게 만드는 기반 기술임
  - 제롬 연구원은 로봇이 대규모 언어 모델(LLM) 그 이상이라고 말함
  - 로봇은 시각, 음성 등 여러 센서 데이터를 통합해야 하고, 여러 로봇 간 협업이나 물리적 상호작용까지 처리해야 함
  - 그래서 네이버랩스 유럽은 공간 지능과 로봇 인식 기반을 핵심 과제로 보고 있음

---

## 기술 맥락

- 더스터가 흥미로운 건 3D 비전의 여러 문제를 따로따로 풀지 않고, 하나의 파운데이션 모델로 묶으려 한다는 점이에요. 예전에는 깊이 추정, 카메라 위치 추정, 3D 재구성 같은 작업이 각각 다른 파이프라인으로 다뤄지는 경우가 많았거든요.

- 네이버랩스가 이걸 로봇 쪽 핵심 기술로 보는 이유는 로봇이 텍스트만 이해해서는 현실 공간에서 움직일 수 없기 때문이에요. 로봇은 물체가 무엇인지뿐 아니라 어디에 있고, 얼마나 떨어져 있고, 어떤 경로로 접근해야 하는지까지 알아야 해요.

- 오픈소스 공개를 택한 것도 기술 전략상 의미가 있어요. 3D 비전 파운데이션 모델은 데이터, 벤치마크, 후속 연구가 많이 붙을수록 빨리 좋아지는데, 폐쇄적으로 들고 있으면 생태계 확장 속도가 느려질 수 있거든요.

- 네이버 서비스와의 연결도 꽤 현실적이에요. 지도 거리뷰, 부동산 실내 사진, AR 콘텐츠는 모두 2D 이미지에서 공간 구조를 이해해야 가치가 커지는 영역이라서, 더스터 같은 모델이 실제 제품 레이어로 내려올 여지가 있어요.

## 핵심 포인트

- 더스터는 2D 이미지를 바탕으로 3D 공간, 깊이 정보, 카메라 위치 같은 기하학 정보를 추출
- 네이버랩스는 상업화보다 연구 생태계 확장을 위해 오픈소스 공개를 선택
- 공개 2년 만에 피인용 1418건을 기록하고 글로벌 빅테크 후속 연구에 활용
- 네이버 지도 거리뷰, 네이버페이 부동산 AR, 로봇 공간 인식 등으로 확장 가능

## 인사이트

로봇이 진짜 세상에서 움직이려면 언어만 잘해서는 부족하고, 공간을 이해하는 ‘눈’이 필요하다. 더스터가 중요한 이유는 3D 비전 과제를 하나의 파운데이션 모델로 묶어, 로봇·지도·부동산·AR 서비스의 공통 기반이 될 수 있다는 점이다.