---
title: "네이버, 중국산 비전 인코더 완전 교체 — 100% 자체 개발로 AI 주권 확보"
published: 2026-04-17T01:05:03.123Z
canonical: https://jeff.news/article/1765
---
# 네이버, 중국산 비전 인코더 완전 교체 — 100% 자체 개발로 AI 주권 확보

네이버클라우드가 비전 인코더 자체 개발을 완료하고, 향후 모든 멀티모달 AI 모델에 적용 예정. 올해 초 정부 독파모 프로젝트에서 알리바바 Qwen 2.5 사용 논란을 정면 돌파하려는 행보.

- 네이버가 자사 AI 모델에서 중국산 기술을 완전히 걷어내고, 100% 자체 개발 비전 인코더를 적용함
  - 네이버클라우드가 이미지를 이해·분석하는 비전 인코더의 독자 개발을 지난달 완료함
  - 향후 네이버의 모든 멀티모달(복합 정보 처리) AI 모델에 이 자체 기술이 전면 적용될 예정임

> [!NOTE]
> 올해 초 네이버가 정부 주도 '독자 인공지능 파운데이션 모델(독파모)' 프로젝트에 참여하면서, 중국 알리바바의 오픈소스 모델 Qwen 2.5 기술을 일부 활용한 사실이 알려져 논란이 됐음. 'AI 주권' 프로젝트에 중국산 기술이 들어갔다는 점이 핵심 쟁점이었음.

- 이번 결정은 기술 자립도 논란을 정면 돌파하겠다는 의지로 풀이됨
  - 데이터 수집부터 설계까지 전 과정을 직접 수행하는 'from scratch' 원칙을 공고히 한다는 방침임
  - 네이버 측은 이번 개발로 논란을 완전히 해소하겠다는 입장임
- 새로 개발한 비전 인코더의 성능은 글로벌 수준에 도달한 것으로 전해짐
  - 한국의 지리, 고유명사, 문화적 맥락이 포함된 시각 데이터 처리 시 외국산 모델보다 높은 정확도를 보임
  - 별도 번역 과정 없이 이미지와 한국어를 직접 연결해 학습 — 정보 왜곡이 적고 한국인에게 최적화된 결과물 가능함
- '소버린 AI' 전략이 한층 탄력을 받을 전망임
  - 다만 오픈소스로 배포된 '하이퍼클로바X 시드 32B 싱크' 등 기존 모델의 인코더까지 교체할지는 미확정임

---

## 기술 맥락

멀티모달 AI에서 비전 인코더는 이미지를 LLM이 이해할 수 있는 숫자 벡터로 변환해주는 핵심 모듈이에요. 텍스트 쪽에 토크나이저가 있다면, 이미지 쪽에는 비전 인코더가 있는 거죠. 대부분의 멀티모달 모델이 이 부분을 오픈소스(예: CLIP, SigLIP, 또는 Qwen 계열)에서 가져다 쓰는데, 그러면 학습 데이터 구성이나 처리 방식을 통제할 수 없다는 문제가 생겨요. 네이버가 정부 독파모 프로젝트에서 알리바바 Qwen 2.5의 비전 인코더를 활용한 게 드러나면서 'AI 주권 프로젝트에 왜 중국 기술이냐'는 비판이 나왔던 거예요. 이번에 from scratch로 개발했다는 건 학습 데이터 선별부터 아키텍처 설계, 학습까지 전부 자체적으로 했다는 의미라서, 데이터 주권 관점에서는 의미 있는 전환이에요. 특히 한국어-이미지 직접 연결 학습은 번역 레이어를 거치지 않아 정보 손실을 줄일 수 있거든요

## 핵심 포인트

- 네이버, 비전 인코더 독자 개발 완료 — 데이터 수집부터 설계까지 'from scratch'
- 한국 지리·고유명사·문화 맥락 시각 데이터에서 외국산 모델 대비 높은 정확도
- 기존 오픈소스 모델(하이퍼클로바X 시드 32B 싱크)의 인코더 교체 여부는 미확정

## 인사이트

기술적으로는 비전 인코더 하나를 자체 개발한 것이지만, '소버린 AI'라는 정치적 맥락에서 보면 네이버가 중국 기술 의존 논란을 끊어내려는 강한 시그널. 성능이 실제로 글로벌 수준인지는 벤치마크 공개를 봐야 할 듯.
