본문으로 건너뛰기
피드

AWS 엔지니어, Linux 7.0에서 PostgreSQL 성능 절반으로 떨어지는 회귀 보고 — 수정도 쉽지 않은 상황

backend 약 5분
vote
0
댓글
북마크

AWS 엔지니어가 Linux 7.0 커널의 프리엠션 모드 변경으로 PostgreSQL 처리량이 0.51x로 떨어지는 심각한 회귀를 보고했음. 커널 메인테이너는 되돌리기 대신 PostgreSQL이 RSEQ를 도입하라는 입장이라 논란 중.

  • 1

    Graviton4 서버 기준 PostgreSQL 처리량이 기존 대비 0.51x로 하락

  • 2

    원인은 Linux 7.0의 프리엠션 모드 단순화로 PREEMPT_NONE 제거

  • 3

    커널 메인테이너는 revert 대신 PostgreSQL 쪽 RSEQ 적용을 요구

  • 4

    Linux 7.0은 2주 후 릴리스 예정이며 Ubuntu 26.04 LTS 기본 커널

  • AWS 엔지니어가 Linux 7.0 커널에서 PostgreSQL 처리량이 기존 대비 절반(0.51x)으로 떨어지는 심각한 성능 회귀를 보고함

    • 테스트 환경은 AWS Graviton4 서버, 유저스페이스 스핀락(spinlock)에서 소비되는 시간이 크게 증가한 게 원인
    • Amazon/AWS의 Salvatore Dipietro가 처리량(throughput)과 지연시간(latency) 회귀를 리눅스 커널 메일링 리스트에 공식 보고
  • 범인은 Linux 7.0에서 커널 프리엠션(preemption) 모드를 단순화한 패치

    • 기존에 여러 프리엠션 모델을 지원하던 걸 Full과 Lazy 두 가지로 줄이면서, 기본값이었던 PREEMPT_NONE이 사라짐
    • 이 변경이 PostgreSQL처럼 유저스페이스 스핀락에 의존하는 워크로드를 직격으로 때림

⚠️주의

> Linux 7.0 stable은 약 2주 후 릴리스 예정이고, Ubuntu 26.04 LTS의 기본 커널이 될 예정임. PostgreSQL 운영 중이라면 커널 업그레이드 전 반드시 벤치마크 필요

  • 회귀를 해결하기 위해 PREEMPT_NONE을 기본값으로 복원하는 패치가 제출됐지만, 원래 코드를 작성한 Peter Zijlstra가 반대 의견을 냄

    • Zijlstra의 입장: "PostgreSQL 쪽에서 RSEQ(Restartable Sequences) 타임슬라이스 확장을 사용하면 됨"
    • 즉, 커널을 되돌리는 게 아니라 PostgreSQL이 새 API에 맞춰 적응하라는 것
    • RSEQ 타임슬라이스 확장 지원도 Linux 7.0에서 함께 업스트림된 기능
  • 이대로 가면 PostgreSQL이 RSEQ를 도입할 때까지 Linux 7.0 환경에서 상당한 성능 저하를 감수해야 하는 상황

    • 커널 메인테이너 vs 데이터베이스 진영 간의 "누가 고쳐야 하나" 책임 공방이 벌어지고 있는 셈

중요

> 핵심 수치 — Graviton4 기준 처리량 0.51x. 절반이 날아간다는 건 프로덕션 환경에서는 재앙 수준


기술 맥락

  • 리눅스 커널의 프리엠션 모델이란 건, 커널이 실행 중인 작업을 얼마나 적극적으로 중단시킬 수 있는지를 결정하는 설정이에요. PREEMPT_NONE은 "가능한 한 현재 작업을 방해하지 마"라는 모드인데, 데이터베이스처럼 긴 연산을 하는 워크로드에 유리하거든요
  • 이번에 문제가 된 건, 프리엠션 모드 옵션을 줄이면서 PostgreSQL의 유저스페이스 스핀락이 커널에 의해 자주 중단되게 된 거예요. 스핀락은 "잠깐만 기다리면 풀릴 거야"라고 바쁘게 대기하는 방식인데, 이걸 잡고 있는 스레드가 선점당하면 다른 스레드들이 전부 멍하니 기다리는 상황이 발생해요
  • RSEQ(Restartable Sequences)는 유저스페이스 코드가 커널에게 "이 구간은 중단하지 마"라고 힌트를 줄 수 있는 메커니즘이에요. 타임슬라이스 확장이 추가되면서, 크리티컬 섹션 실행 중에는 선점을 미루도록 요청할 수 있게 됐거든요
  • 커널 메인테이너 입장에서는 코드 복잡도를 줄이기 위해 레거시 옵션을 정리한 건데, 그 여파가 가장 많이 쓰이는 DB 중 하나인 PostgreSQL에 직격탄이 된 거라 논란이 커지고 있어요. 결국 "인프라가 먼저 바뀌면 애플리케이션이 따라가야 하는가"라는 전형적인 트레이드오프 문제예요

커널 인프라가 먼저 바뀌면 애플리케이션이 따라가야 하는가 — 리눅스 커널 메인테이너와 PostgreSQL 진영의 책임 공방이 흥미로움. Ubuntu 26.04 LTS에 직접 영향이라 한국 서버 운영자들도 주시해야 할 이슈.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.