본문으로 건너뛰기
피드

SQLite가 미국 의회도서관 추천 보존 포맷에 오른 이유

backend 약 5분

미국 의회도서관은 데이터셋 장기 보존에 적합한 추천 저장 포맷으로 SQLite를 포함시켰다. 당시 데이터셋 추천 포맷은 XML, JSON, CSV, SQLite뿐이었고, 핵심 기준은 표준 딱지보다 문서화, 채택률, 투명성, 외부 의존성 같은 장기 접근성이었다.

  • 1

    SQLite는 미국 의회도서관의 데이터셋 추천 저장 포맷에 포함됨

  • 2

    추천 포맷은 디지털 콘텐츠가 오래 살아남고 계속 읽힐 가능성을 높이는 형식이라는 뜻임

  • 3

    평가 기준에는 공개 문서, 채택률, 투명성, 자기 설명성, 외부 의존성, 특허 리스크, 기술적 보호장치 여부가 포함됨

  • SQLite가 미국 의회도서관의 데이터셋 추천 저장 포맷으로 올라가 있음

    • 원문 기준 시점인 2018년 5월 29일에는 데이터셋 추천 포맷이 XML, JSON, CSV, SQLite뿐이었음
    • SQLite를 그냥 “앱에 끼워 넣는 작은 DB”로만 보면 꽤 과소평가한 셈임
  • 여기서 말하는 추천 저장 포맷은 “멋진 표준”이 아니라 “오래 살아남을 확률이 높은 형식”에 가까움

    • 보존 전문가들이 디지털 콘텐츠가 미래에도 계속 접근 가능할지 보고 고른 포맷이라는 뜻임
    • 즉, 새 기능이 많냐보다 문서화가 잘 되어 있고, 도구가 있고, 특정 회사나 환경에 덜 묶여 있는지가 중요함
  • 미국 의회도서관이 보는 기준은 꽤 현실적임

    • 공개성은 완전한 명세와 검증 도구가 있는지를 봄. 공식 표준 기관 승인보다 “제대로 된 문서가 있냐”가 더 중요하다는 게 재밌는 포인트임
    • 채택률은 실제 생산자, 배포자, 사용자들이 이미 쓰고 있는지를 봄. 마스터 포맷, 사용자 전달용, 시스템 간 교환용 사용 사례가 모두 포함됨
    • 투명성은 텍스트 편집기 같은 기본 도구로 직접 분석 가능한지까지 따짐. CSV나 JSON이 강한 이유가 여기 있음
  • SQLite가 유리한 건 파일 하나에 데이터와 구조를 같이 담을 수 있다는 점임

    • 자기 설명성 측면에서 테이블 구조, 타입 정보, 인덱스 같은 기술적 맥락을 파일 내부에 담을 수 있음
    • CSV처럼 가볍지만 스키마가 밖으로 빠져나가 유실되는 문제를 어느 정도 줄일 수 있음

중요

> 장기 보존 관점에서는 “읽을 수 있는 데이터”가 “저장된 데이터”보다 중요함. SQLite가 추천 포맷에 들어간 건 이 차이를 꽤 잘 보여줌.

  • 외부 의존성, 특허, 암호화 같은 요소도 평가 대상임
    • 특정 하드웨어, 운영체제, 소프트웨어가 있어야만 열리는 포맷은 미래 보존 리스크가 커짐
    • 특허 때문에 보존 기관이 유지보수나 변환을 못 하게 되는지도 따짐
    • 암호화나 기술적 보호장치가 보존을 막는지도 중요한 기준임

기술 맥락

  • SQLite가 여기서 흥미로운 이유는 데이터베이스이면서 동시에 파일 포맷이기 때문이에요. 보통 DB는 서버, 버전, 운영 환경까지 같이 떠올리는데 SQLite는 데이터셋을 파일 하나로 들고 다닐 수 있어서 장기 보관 시나리오에 잘 맞아요.

  • XML, JSON, CSV는 사람이 읽거나 도구로 파싱하기 쉬운 대신, 복잡한 관계형 구조나 제약 조건을 온전히 담기엔 한계가 있어요. SQLite는 테이블, 인덱스, 일부 메타데이터를 파일 안에 같이 넣을 수 있으니 데이터의 모양을 잃어버릴 가능성이 줄어들어요.

  • 미국 의회도서관의 기준이 개발자에게도 의미 있는 건 “미래의 나”가 결국 보존 담당자와 비슷한 문제를 겪기 때문이에요. 지금 만든 데이터 파일을 몇 년 뒤 다른 런타임, 다른 팀, 다른 운영체제에서 열어야 할 수 있거든요.

  • 그래서 SQLite 선택은 단순히 가볍고 빠른 로컬 DB를 고르는 문제가 아니에요. 배포 없이 읽히는 명세, 넓은 채택률, 낮은 외부 의존성까지 같이 가져가는 선택이라서 아카이브와 제품 개발 양쪽에서 꽤 실용적인 카드가 돼요.

SQLite가 단순한 임베디드 데이터베이스를 넘어 ‘오래 보관해도 읽을 수 있는 파일 포맷’으로 인정받았다는 게 포인트임. 앱 내부 저장소를 고를 때도 ‘지금 편한가’뿐 아니라 ‘10년 뒤에도 열 수 있나’를 같이 봐야 한다는 얘기임.

댓글

댓글

댓글을 불러오는 중...

backend

비동기 러스트, 아직 MVP 상태에서 못 벗어났다는 꽤 아픈 지적

글쓴이는 비동기 러스트(async Rust)가 서버와 마이크로컨트롤러를 모두 커버하는 멋진 모델이지만, 컴파일러가 만드는 상태 기계가 아직 너무 비싸다고 지적한다. 특히 임베디드나 WASM처럼 바이너리 크기가 중요한 환경에서는 불필요한 panic 경로, 상태, 중복 MIR이 실제 비용으로 튄다.

backend

머큐리가 하스켈 200만 줄로 핀테크 백엔드를 굴리는 법

핀테크 기업 머큐리가 200만 줄 규모의 하스켈 코드베이스를 실제 금융 서비스에서 어떻게 운영하는지 풀어낸 글이다. 핵심은 '순수함' 자체가 아니라 위험한 동작을 타입과 인터페이스 경계 안에 가두고, 조직의 운영 지식을 컴파일러가 읽을 수 있는 형태로 남기는 데 있다. Temporal, OpenTelemetry, 함수 레코드, 도메인 에러 모델링 같은 실전 패턴이 꽤 구체적으로 나온다.

backend

30살 된 FastCGI가 아직도 리버스 프록시 백엔드 프로토콜로 더 낫다는 주장

HTTP를 리버스 프록시와 백엔드 사이 프로토콜로 쓰는 관행이 desync 공격과 신뢰 헤더 문제를 계속 만든다는 글이다. 저자는 FastCGI가 1996년 나온 오래된 프로토콜이지만 명시적 프레이밍과 신뢰 정보 분리 덕분에 이 구간에서는 HTTP보다 안전한 선택일 수 있다고 주장한다.

backend

삼성SDS, 삼성전기 SAP ERP 클라우드 전환 — 다운타임 140시간을 34시간으로 줄였다

삼성SDS가 삼성전기의 차세대 SAP ERP 클라우드 전환 프로젝트를 완료. 국내 최초 RISE with SAP 프리미엄 서플라이어 기반 사례이고, Downtime Optimized Conversion 적용으로 8.5TB HANA DB 전환 다운타임을 76% 단축. DVM으로 DB 용량 35% 축소, 업무 효율 25% 이상 개선.

backend

월 $20 인프라로 MRR $10K 회사 여러 개 돌리는 법

VPS 하나, Go 바이너리, SQLite, 로컬 GPU, GitHub Copilot 조합으로 월 $20 이하의 인프라 비용으로 MRR $10K 넘는 회사를 여러 개 운영하는 개발자의 실전 플레이북. AWS 없이도 충분히 확장 가능한 아키텍처를 구축할 수 있음을 구체적 수치와 코드로 보여줌.