본문으로 건너뛰기
피드

Cap'n Proto: Protobuf 만든 사람이 다시 만든 '인코딩 없는' 직렬화 포맷

backend 약 3분
vote
0
댓글
북마크

Protocol Buffers v2의 핵심 개발자 Kenton Varda가 만든 데이터 직렬화 포맷 겸 RPC 시스템. 인코딩과 메모리 표현이 동일해서 직렬화/역직렬화 비용이 0이며, mmap, 랜덤 액세스, 프로세스 간 공유 메모리 등 다양한 이점을 제공함. Cloudflare Workers에서 실전 사용 중.

  • 1

    인코딩 포맷 = 메모리 내 표현이라 직렬화/역직렬화 비용 제로

  • 2

    플랫폼 독립적이면서 현대 CPU에 최적화된 설계 (고정 폭, 리틀엔디언, 오프셋 기반 포인터)

  • 3

    packing 압축으로 protobuf과 비슷하거나 더 작은 메시지 크기 달성

  • 4

    mmap, 랜덤 액세스, 언어 간/프로세스 간 통신 등 다양한 활용 가능

  • 5

    Time-traveling RPC: promise pipelining으로 응답이 요청보다 먼저 도착하는 구조

  • Protocol Buffers v2의 핵심 개발자였던 Kenton Varda가 만든 데이터 직렬화 포맷 + RPC 시스템. Protobuf의 수년간 경험과 사용자 피드백을 바탕으로 설계한 "개선판"임
  • 벤치마크에서 Protocol Buffers 대비 무한 배 빠름. 물론 불공정한 비교인데, 인코딩/디코딩 과정 자체가 없기 때문

핵심 아이디어: 인코딩 포맷과 메모리 내 표현이 동일함. 구조체를 만들면 그 바이트를 그대로 디스크에 쓰면 됨

  • 플랫폼 독립적이지만 현대 CPU에 최적화된 설계: 고정 폭, 고정 오프셋, 정렬, 리틀엔디언
  • 포인터는 절대 주소가 아닌 오프셋 기반이라 메시지가 위치 독립적
  • 하위 호환성: 새 필드는 항상 구조체 끝에 추가되고, 읽는 쪽은 바운드 체크만 하면 됨
  • 고정 폭 정수나 패딩이 낭비처럼 보이지만, 어차피 0이라서 "packing"이라는 전용 압축을 걸면 protobuf와 비슷한(오히려 더 작은) 크기 달성 가능

보안: 버퍼 포인터를 구조체로 캐스팅하는 짓은 안 함. 접근자 메서드가 포인터를 검증한 후 따라감. Sandstorm.io와 Cloudflare Workers에서 실전 투입 중이고, 퍼징 + 보안 전문가 리뷰를 거침

기타 장점들:

  • 점진적 읽기: 메시지를 다 받기 전에 처리 시작 가능
  • 랜덤 액세스: 전체 파싱 없이 특정 필드만 읽기
  • mmap 지원: 대용량 파일을 메모리 매핑해서 접근한 부분만 OS가 읽음
  • 언어 간 / 프로세스 간 통신: 같은 메모리 표현을 공유하니까 Java↔C++ 같은 조합에서 별도 변환 없이 동작
  • 아레나 할당: Protobuf의 메모리 할당 병목 회피
  • 생성 코드가 극도로 작음: 대부분 인라인 접근자 메서드 수준
  • Time-traveling RPC: 요청이 서버에 도착하기 전에 응답이 클라이언트에 돌아오는 마법 같은 구조 (promise pipelining)

Protobuf을 왜 그렇게 까냐고? 본인이 만든 거라서 까기 편해서라고 함. 구글과는 무관한 프로젝트임

Protobuf의 창시자가 '인코딩 단계 자체를 없애버리면 어떨까'라는 근본적 질문에서 출발한 설계. 제로카피 직렬화의 대표 사례.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.