본문으로 건너뛰기
피드

GPU 쿠쿠 필터: Blocked Bloom보다 빠른 조회 + 삭제 지원, CUDA 구현체 공개

backend 약 2분
vote
0
댓글
북마크

Cuckoo Filter의 CUDA 구현체로, CPU 대비 조회 351배 빠른 성능. 블룸 필터와 달리 삭제를 지원하면서도 오탐률 0.046%를 달성.

  • 1

    CPU 대비 삽입 175배, 조회 351배 성능

  • 2

    삭제 지원이 블룸 필터 대비 핵심 차별점

  • 3

    멀티 GPU gossip 프로토콜 및 IPC 지원

  • HN의 Show HN에 올라온 GPU 기반 쿠쿠 필터(Cuckoo Filter) 구현체. 논문 "Cuckoo-GPU: Accelerating Cuckoo Filters on Modern GPUs"의 동반 코드임

  • 쿠쿠 필터가 블룸 필터 대비 갖는 최대 장점은 삭제 지원인데, 이걸 CUDA로 GPU에 올려서 대량 배치 연산을 lock-free로 처리하는 게 핵심

  • NVIDIA GH200 (H100 HBM3, 3.4 TB/s) 기준 95% 로드 팩터에서의 벤치마크가 인상적임:

    • CPU Partitioned Cuckoo Filter 대비: 삽입 175배, 조회 351배 빠름
    • GPU Blocked Bloom Filter 대비: 삽입은 0.35배로 더 느리지만 조회는 1.2배, 그리고 삭제가 가능
    • GPU Two-Choice Filter 대비: 삽입 4배, 조회 35배, 삭제 108배 빠름
    • 오탐률(FPR)은 0.046%로 Blocked Bloom(2.5%)보다 훨씬 낮음
  • 설정이 꽤 유연함. 핑거프린트 크기(8/16/32비트), 버킷 크기, 퇴거 정책(DFS/BFS), CUDA 블록 크기 등 커스터마이징 가능

  • 멀티 GPU는 gossip 프로토콜로 지원하고, 프로세스 간 필터 공유를 위한 IPC도 실험적으로 지원함. 헤더 온리 라이브러리라 통합도 간편

  • 요구사항: CUDA Toolkit 12.9+, C++20 컴파일러, Meson 빌드 시스템

확률적 자료구조의 GPU 가속은 대규모 스트리밍 데이터 필터링에서 실용성이 높음. 블룸 필터의 삭제 불가 한계를 넘으면서 성능까지 챙긴 점이 눈에 띔.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.