본문으로 건너뛰기
피드

Parquet/Iceberg를 대체할 Lance 포맷, 애니메이션으로 쉽게 이해하기

backend 약 4분
vote
0
댓글
북마크

Lance는 Parquet(파일 포맷) + Iceberg(테이블 포맷) + 카탈로그 스펙을 하나로 통합한 차세대 데이터 포맷임. 랜덤 읽기 최적화, 데이터 복사 없는 ad-hoc 컬럼 추가, BTree/역색인/벡터 인덱스 내장 등 기존 스택의 한계를 해결함. AI 시대의 멀티모달 데이터 레이크 수요가 이런 기술의 등장 배경임.

  • 1

    Lance 파일 포맷은 Parquet 대비 랜덤 읽기(WHERE id=123)에 최적화되면서 순차 읽기 성능도 유지

  • 2

    Lance 테이블 포맷은 Iceberg와 달리 데이터 복사 없이 ad-hoc 컬럼 추가 가능하며 MVCC 지원

  • 3

    BTree, 역색인(FTS), HNSW 벡터 인덱스를 테이블 레벨에서 내장 지원

  • 4

    SpiralDB의 vortex도 Parquet 경쟁 포맷으로 등장, LanceDB와 직접 경쟁 구도

  • 5

    2025년 빅데이터 업계 인수합병 활발: Datadog-Quickwit, Databricks-Neon

2025년 빅데이터 업계 주요 이벤트

  • 2025년 오브젝트 스토리지 기반 빅데이터 세계에서 굵직한 일들이 많았음: Iceberg V3 스펙 릴리스(VARIANT 타입 추가), turbopuffer의 오브젝트 스토리지 위 벡터 검색 발표, Apache Fluss의 Flink 기반 실시간 스트림 티어링 등
  • Datadog이 Quickwit을 인수했고, Databricks가 Neon을 인수함
  • 그런데 이 모든 것보다 더 중요한 게 레이더 밑으로 지나갔는데, 바로 Lance

Lance란 무엇인가

  • Lance는 파일 포맷(Parquet 대응), 테이블 포맷(Iceberg 대응), 카탈로그 스펙(Iceberg REST catalog 대응)을 모두 포함하는 올인원 포맷임
  • 기존 빅데이터 스택에서 각각 별도 레이어로 존재하던 것들을 하나로 통합한 셈

Lance 파일 포맷 — Parquet와의 차이

  • Parquet는 컬럼 전체를 순차적으로 읽는 데 최적화되어 있지만, WHERE id = 123 같은 랜덤 읽기에는 느림
  • Lance 파일 포맷은 랜덤 읽기에 최적화되면서도 Parquet의 순차 읽기 성능은 그대로 유지함
  • Parquet가 기본 1MB 페이지 단위인 반면, Lance는 더 작은 단위로 데이터를 구성해서 포인트 쿼리 성능이 좋음

Lance 테이블 포맷 — Iceberg와의 차이

  • Iceberg에서 새 컬럼을 추가하려면 기존 데이터를 전부 복사해야 됨. Lance는 ad-hoc 컬럼 추가 시 데이터 복사 없이 바로 추가 가능함
  • Iceberg의 핵심인 MVCC(다중 버전 동시성 제어)는 그대로 지원함
  • 테이블 레벨에서 인덱스를 직접 지원하는 것도 큰 장점임: BTree, 역색인(Full-Text Search), 벡터 인덱스(HNSW) 등을 내장하고 있음

경쟁자와 AI 시대의 맥락

  • SpiralDB가 만든 vortex라는 오픈소스 파일 포맷도 Parquet의 경쟁자로 등장함. LanceDB와 직접 경쟁 구도
  • 이런 기술들이 등장한 배경은 AI 시대에 멀티모달 데이터 레이크의 필요성이 커졌기 때문임 — 텍스트, 이미지, 벡터 등 다양한 데이터를 하나의 레이크에서 처리해야 하는 수요가 폭발적으로 증가함
  • AI 소프트웨어 시대가 또 어떤 새로운 기술들을 만들어낼지 주목할 만함

오브젝트 스토리지 위의 데이터 레이크 스택이 AI 워크로드에 맞게 재편되고 있음. Parquet+Iceberg 조합이 사실상 표준이었지만, 벡터 검색과 멀티모달 데이터 처리가 필수가 되면서 Lance처럼 인덱스와 랜덤 액세스를 1급 시민으로 지원하는 포맷이 부상하는 흐름임.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.