---
title: "Parquet/Iceberg를 대체할 Lance 포맷, 애니메이션으로 쉽게 이해하기"
published: 2026-02-08T22:26:52.000Z
canonical: https://jeff.news/article/573
---
# Parquet/Iceberg를 대체할 Lance 포맷, 애니메이션으로 쉽게 이해하기

Lance는 Parquet(파일 포맷) + Iceberg(테이블 포맷) + 카탈로그 스펙을 하나로 통합한 차세대 데이터 포맷임. 랜덤 읽기 최적화, 데이터 복사 없는 ad-hoc 컬럼 추가, BTree/역색인/벡터 인덱스 내장 등 기존 스택의 한계를 해결함. AI 시대의 멀티모달 데이터 레이크 수요가 이런 기술의 등장 배경임.

## 2025년 빅데이터 업계 주요 이벤트

- 2025년 오브젝트 스토리지 기반 빅데이터 세계에서 굵직한 일들이 많았음: Iceberg V3 스펙 릴리스(VARIANT 타입 추가), turbopuffer의 오브젝트 스토리지 위 벡터 검색 발표, Apache Fluss의 Flink 기반 실시간 스트림 티어링 등
- Datadog이 Quickwit을 인수했고, Databricks가 Neon을 인수함
- 그런데 이 모든 것보다 더 중요한 게 레이더 밑으로 지나갔는데, 바로 **Lance**임

## Lance란 무엇인가

- Lance는 파일 포맷(Parquet 대응), 테이블 포맷(Iceberg 대응), 카탈로그 스펙(Iceberg REST catalog 대응)을 모두 포함하는 올인원 포맷임
- 기존 빅데이터 스택에서 각각 별도 레이어로 존재하던 것들을 하나로 통합한 셈

## Lance 파일 포맷 — Parquet와의 차이

- Parquet는 컬럼 전체를 순차적으로 읽는 데 최적화되어 있지만, `WHERE id = 123` 같은 랜덤 읽기에는 느림
- Lance 파일 포맷은 **랜덤 읽기에 최적화**되면서도 Parquet의 순차 읽기 성능은 그대로 유지함
- Parquet가 기본 1MB 페이지 단위인 반면, Lance는 더 작은 단위로 데이터를 구성해서 포인트 쿼리 성능이 좋음

## Lance 테이블 포맷 — Iceberg와의 차이

- Iceberg에서 새 컬럼을 추가하려면 기존 데이터를 전부 복사해야 됨. Lance는 **ad-hoc 컬럼 추가 시 데이터 복사 없이** 바로 추가 가능함
- Iceberg의 핵심인 MVCC(다중 버전 동시성 제어)는 그대로 지원함
- 테이블 레벨에서 **인덱스를 직접 지원**하는 것도 큰 장점임: BTree, 역색인(Full-Text Search), 벡터 인덱스(HNSW) 등을 내장하고 있음

## 경쟁자와 AI 시대의 맥락

- SpiralDB가 만든 **vortex**라는 오픈소스 파일 포맷도 Parquet의 경쟁자로 등장함. LanceDB와 직접 경쟁 구도
- 이런 기술들이 등장한 배경은 AI 시대에 **멀티모달 데이터 레이크**의 필요성이 커졌기 때문임 — 텍스트, 이미지, 벡터 등 다양한 데이터를 하나의 레이크에서 처리해야 하는 수요가 폭발적으로 증가함
- AI 소프트웨어 시대가 또 어떤 새로운 기술들을 만들어낼지 주목할 만함

## 핵심 포인트

- Lance 파일 포맷은 Parquet 대비 랜덤 읽기(WHERE id=123)에 최적화되면서 순차 읽기 성능도 유지
- Lance 테이블 포맷은 Iceberg와 달리 데이터 복사 없이 ad-hoc 컬럼 추가 가능하며 MVCC 지원
- BTree, 역색인(FTS), HNSW 벡터 인덱스를 테이블 레벨에서 내장 지원
- SpiralDB의 vortex도 Parquet 경쟁 포맷으로 등장, LanceDB와 직접 경쟁 구도
- 2025년 빅데이터 업계 인수합병 활발: Datadog-Quickwit, Databricks-Neon

## 인사이트

오브젝트 스토리지 위의 데이터 레이크 스택이 AI 워크로드에 맞게 재편되고 있음. Parquet+Iceberg 조합이 사실상 표준이었지만, 벡터 검색과 멀티모달 데이터 처리가 필수가 되면서 Lance처럼 인덱스와 랜덤 액세스를 1급 시민으로 지원하는 포맷이 부상하는 흐름임.
