---
title: "Qwen3-VL-Embedding 공개 — 텍스트·이미지·비디오를 하나의 벡터 공간에"
published: 2026-01-09T23:07:46.000Z
canonical: https://jeff.news/article/633
---
# Qwen3-VL-Embedding 공개 — 텍스트·이미지·비디오를 하나의 벡터 공간에

Qwen 팀이 Qwen3-VL 기반 멀티모달 임베딩 + 리랭커 모델을 오픈소스 공개. 텍스트·이미지·비디오 혼합 입력을 지원하며, MMEB-V2에서 SOTA 달성. 2B 모델도 대부분의 8B급 경쟁 모델을 능가.

- Qwen 팀이 Qwen3-VL 기반의 멀티모달 임베딩 + 리랭커 모델을 오픈소스로 공개함. 텍스트, 이미지, 스크린샷, 비디오, 그리고 이들의 혼합 입력까지 하나의 프레임워크에서 처리하는 모델임
- **Embedding 모델**(2B/8B)은 Dual-Tower 아키텍처로, EOS 토큰의 히든 스테이트를 최종 시맨틱 벡터로 추출함. 대규모 검색에 적합한 독립 인코딩 방식
- **Reranker 모델**(2B/8B)은 Single-Tower 아키텍처로, Cross-Attention 기반의 정밀 관련성 스코어링을 수행함. `yes`/`no` 특수 토큰의 생성 확률로 점수를 매기는 구조

## 벤치마크가 꽤 인상적임

- MMEB-V2에서 **Qwen3-VL-Embedding-8B가 80.1점**(Image Overall)으로, 기존 SOTA였던 Seed-1.6-embedding(78.0)과 IFM-TTE(77.9)를 모두 넘었음
- 비디오 쪽은 더 압도적인데, Video Overall에서 **67.1점**으로 Seed-1.6(67.7)에 근접하면서 2B 모델도 **61.9점**을 찍음
- 텍스트 전용 MMTEB 벤치마크에서도 8B 모델이 **67.9점**으로 Gemini Embedding(68.4)과 거의 동급. 멀티모달 모델이 텍스트 전용 벤치에서도 경쟁력이 있다는 거임
- Reranker를 붙이면 성능이 한 단계 더 올라감. 예를 들어 MMEB-v2 Retrieval 기준 Embedding-2B(73.4) → Reranker-2B(75.2) → Reranker-8B(**79.2**)

## 실용적인 특징들

- **30개 이상 언어** 지원, Matryoshka Representation Learning(MRL)으로 벡터 차원 유연하게 조절 가능
- 양자화 임베딩 지원으로 배포 효율성도 챙김
- vLLM 0.14.0+ 지원, 커스텀 인스트럭션으로 태스크별 최적화 가능
- 시퀀스 길이 32K, 임베딩 차원 2048(2B) / 4096(8B)
- 엔드투엔드 멀티모달 RAG 예제도 함께 제공 (Embedding → Reranker → Qwen3-VL 파이프라인)

> [!TIP]
> 2B 모델만으로도 MMEB-V2에서 73.2점으로 대부분의 8B급 경쟁 모델을 넘김. 리소스 제약이 있다면 2B로 시작하는 것도 괜찮은 선택.

## 핵심 포인트

- Dual-Tower 임베딩 + Single-Tower 리랭커 아키텍처
- MMEB-V2 Image Overall 80.1점으로 SOTA
- 2B 모델이 대부분의 8B 경쟁 모델 능가
- 30개+ 언어 지원, MRL로 벡터 차원 유연 조절, vLLM 0.14+ 지원

## 인사이트

멀티모달 RAG 파이프라인 구축에 바로 활용 가능한 오픈소스 모델. 특히 2B 모델의 성능 대비 효율이 눈에 띔.
