본문으로 건너뛰기
피드

C++20으로 M:N 스케줄러를 밑바닥부터 구현한 교육용 프로젝트 (EBR, Work-Stealing)

backend 약 7분
vote
0
댓글
북마크

C++20 코루틴 기반으로 M:N 비동기 런타임을 약 1,000줄로 직접 구현한 교육용 프로젝트. Work-Stealing, EBR 메모리 회수, Lock-Free 큐, Reactor 패턴 등 고성능 동시성 런타임의 핵심 개념을 최소한의 코드로 보여줌. MacBook M1 Air에서 186,045 QPS를 달성해 Go 구현(193,587 QPS)에 근접한 성능을 기록함.

  • 1

    Chase-Lev Lock-Free Deque 기반 Work-Stealing으로 스레드 간 부하 분산

  • 2

    EBR(Epoch-Based Reclamation)로 Lock-Free 프로그래밍의 ABA 문제와 Use-After-Free 방지

  • 3

    약 1,000줄의 최소 코드로 M:N 스케줄러, Reactor, Channel 등 핵심 컴포넌트 구현

  • 4

    MacBook M1 Air 기준 186,045 QPS로 Go 구현 대비 96% 수준 성능 달성

C++20으로 M:N 스케줄러를 밑바닥부터 구현한 교육용 프로젝트

C++20 코루틴을 활용해 M:N 비동기 런타임을 처음부터 직접 만들어본 교육용 프로젝트 tiny_coro가 공개됨. Seastar나 Folly 같은 산업용 라이브러리의 복잡한 래퍼를 걷어내고, 고성능 동시성 런타임의 핵심 개념만 약 1,000줄의 코드로 보여주는 것이 목표임.

핵심 컴포넌트 구성

  • M:N 스레딩 모델: M개의 코루틴을 N개의 커널 스레드에 매핑해 멀티코어 성능을 최대한 활용함
  • Work-Stealing 스케줄링: Chase-Lev Lock-Free Deque 기반으로, 유휴 스레드가 바쁜 스레드의 큐 꼬리에서 태스크를 훔쳐오는 방식으로 부하를 분산함
  • EBR (Epoch-Based Reclamation): Lock-Free 프로그래밍에서의 ABA 문제를 해결하고, 큐 확장이나 노드 삭제 시 Use-After-Free를 방지하는 메모리 안전 회수 메커니즘
  • AsyncMutex: Baton Passing 기술 기반으로, 깨울 때 락 소유권을 직접 전달해 thundering herd 문제를 회피함
  • Channel: CSP(Communicating Sequential Processes) 모델 구현, 버퍼 모드와 언버퍼 모드 모두 지원

EBR이 왜 필요한가

Lock-Free 큐(StealQueue)에서 한 스레드가 노드 A를 읽고 있을 때, 다른 스레드가 A를 삭제하고 메모리를 해제할 수 있음. 시스템이 이 메모리를 즉시 재사용하면 읽는 쪽 스레드가 크래시하거나 더티 데이터를 읽게 됨. tiny_coro의 EBR 방식은 다음과 같음:

  • 각 스레드가 로컬 Epoch을 유지함
  • 모든 활성 스레드가 따라잡은 후에만 글로벌 Epoch이 전진함
  • 글로벌 Epoch이 2세대(G-2) 이상 앞서간 경우에만 메모리를 실제로 삭제함

Lock-Free 큐의 최적화 디테일

  • alignas(64): top과 bottom 포인터가 같은 캐시 라인에 놓이는 것을 방지해 False Sharing을 차단함
  • seq_cst 배리어: pop 연산에서 Dekker 알고리즘 원리를 따라, 큐에 원소가 하나만 남았을 때의 데이터 레이스를 방지함
  • await_suspend가 bool을 반환하는 기능을 활용해 Fast Path 최적화 구현. 락 획득이나 버퍼 읽기/쓰기 성공 시 코루틴이 서스펜드 없이 바로 계속 실행되므로, 기존의 "서스펜드 -> 큐 삽입 -> 스케줄러 웨이크업" 경로 대비 훨씬 빠름

아키텍처 흐름

전체 구조는 다음과 같이 동작함:

  • Scheduler -> Worker 스레드 풀 시작 + 글로벌 큐 관리
  • Worker: 각각 시스템 스레드에 바인딩되어 run_once() 루프 실행. 우선순위는 로컬 큐 -> 글로벌 큐 -> 다른 Worker에서 훔치기 -> Sleep(Park)
  • EBR Manager: 글로벌 Epoch을 모니터링해 Lock-Free 큐 확장 시 모든 스레드가 크리티컬 섹션을 빠져나간 후에만 메모리를 해제함
  • Parker: Atomic Wait(Futex) 기반으로 Lost Wakeup 문제를 해결하는 효율적 슬립 메커니즘

네트워크 I/O

  • Reactor 패턴: epoll(Linux) / kqueue(macOS) 캡슐화
  • Zero-Copy HTTP 파서: std::string_view로 수신 버퍼에서 직접 동작해 메모리 할당을 회피함
  • 스트림 처리: 코루틴 기반 파일 업로드/다운로드를 8KB 상수 메모리로 처리함

성능 결과

MacBook M1 Air 로컬 루프백 wrk 테스트 기준:

  • tiny_coro 기반 간단한 HTTP 서버: 186,045 QPS
  • 동일 로직의 Go 구현: 193,587 QPS
  • ASAN, TSAN 테스트 모두 통과함

Go가 Google의 깊은 최적화와 OS 통합의 이점을 가진 점을 감안하면, 교육용 프로젝트로서 매우 인상적인 수치임.

학습 가이드

이 프로젝트는 프로덕션용이 아니라 순수 교육 목적임. 버그가 존재하지만 코드의 최소한의 가독성을 유지하기 위해 의도적으로 수정하지 않은 상태임. 대신 자체 개발한 coroTracer 도구로 버그의 근본 원인을 분석한 기록이 포함되어 있음.

  • 입문자: how_to_make_your_MN_scheduler.md 문서를 따라 순서대로 학습할 수 있음. 기본 C++ 문법만 알면 충분함
  • 코루틴에 익숙한 개발자: docs 폴더에서 모듈별로 독립적으로 참고 가능함
  • 전체 코드가 약 1,000줄 수준이라 통독하기에도 부담이 적음

참고 및 영감

  • Tokio(Rust): Work-Stealing과 Reactor 설계의 영감 소스
  • Go Runtime: M:N 모델과 Channel 설계 참고
  • picohttpparser: HTTP 파싱용 (코루틴 스케줄러 자체는 외부 의존성 없음)

C++20 코루틴의 내부 동작 원리를 "직접 만들어보면서" 이해하고 싶은 개발자에게 매우 좋은 학습 자료가 될 것으로 보임.

Seastar나 Folly 같은 산업용 프레임워크의 핵심 원리를 1,000줄로 압축해 보여주는 점이 인상적임. C++20 코루틴의 내부 동작을 직접 구현하며 배우고 싶은 시니어 개발자에게 좋은 참고 자료가 될 것으로 보임.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.