---
title: "Voyage AI, 비디오 임베딩 지원하는 차세대 멀티모달 검색 모델 voyage-multimodal-3.5 발표"
published: 2026-01-23T22:51:25.000Z
canonical: https://jeff.news/article/1147
---
# Voyage AI, 비디오 임베딩 지원하는 차세대 멀티모달 검색 모델 voyage-multimodal-3.5 발표

Voyage AI가 텍스트·이미지에 이어 비디오 프레임 임베딩을 지원하는 voyage-multimodal-3.5를 발표. Cohere Embed v4 대비 비주얼 문서 검색 +4.56%, Google 대비 비디오 검색 +4.65%(~6배 저렴). 마트료시카 임베딩과 다양한 양자화 옵션도 지원.

- Voyage AI가 차세대 멀티모달 임베딩 모델 **voyage-multimodal-3.5**를 발표. 텍스트, 이미지에 이어 **비디오 프레임 임베딩**을 새로 지원하는 것이 핵심

- 성능 수치:
  - 비주얼 문서 검색: Cohere Embed v4 대비 **+4.56%** (15개 데이터셋)
  - 비디오 검색: Google Multimodal Embedding 001 대비 **+4.65%** (3개 데이터셋), 가격은 **~6배 저렴** (512×512 해상도 기준)
  - 순수 텍스트 검색: voyage-3-large(현 SoTA 텍스트 임베딩) 대비 불과 **0.29% 차이**이면서 토큰당 $0.06 더 저렴

## 아키텍처 특징

- CLIP 계열 모델이 이미지와 텍스트를 **별도 타워**로 처리하는 것과 달리, voyage-multimodal-3.5는 **단일 트랜스포머 인코더**로 모든 모달리티를 처리. 이렇게 하면 모달리티 갭(modality gap) 문제를 피할 수 있음 — 텍스트 쿼리가 관련성 높은 이미지보다 관련 없는 텍스트를 먼저 검색하는 현상

- 비디오는 내부적으로 프레임 시퀀스를 이미지로 입력하는 방식. 1120 픽셀 = 1 토큰으로 계산하며, 최대 **32k 토큰**까지 처리 가능

## 실용 팁: 비디오 임베딩 베스트 프랙티스

- 긴 영상은 **씬 단위로 분할**하되, 음성 전사(transcript) 타임스탬프에 맞춰서 자연스러운 경계에서 끊을 것
- 32k 토큰을 초과하는 연속 씬은 **해상도를 낮추거나 FPS를 줄여서** 토큰 수를 맞출 것

- **마트료시카 임베딩** 지원: 2048, 1024, 512, 256차원 중 선택 가능. 32비트 float, 8비트 정수(signed/unsigned), 바이너리 양자화까지 지원해서 정확도 손실 최소화하면서 유연하게 운용 가능

- 무료 체험: 첫 **2억 토큰 + 1500억 픽셀** 무료

## 핵심 포인트

- 단일 트랜스포머 인코더로 모달리티 갭 문제 해결
- 비디오 검색에서 Google 대비 4.65% 우수하면서 6배 저렴
- 순수 텍스트 검색에서도 SoTA 모델 대비 0.29% 차이
- 마트료시카 임베딩으로 256~2048차원 유연한 선택 가능

## 인사이트

멀티모달 임베딩이 텍스트·이미지를 넘어 비디오까지 확장되면서, RAG 파이프라인의 입력 범위가 근본적으로 넓어지는 추세.
