---
title: "GPU 쿠쿠 필터: Blocked Bloom보다 빠른 조회 + 삭제 지원, CUDA 구현체 공개"
published: 2026-01-06T22:33:21.000Z
canonical: https://jeff.news/article/514
---
# GPU 쿠쿠 필터: Blocked Bloom보다 빠른 조회 + 삭제 지원, CUDA 구현체 공개

Cuckoo Filter의 CUDA 구현체로, CPU 대비 조회 351배 빠른 성능. 블룸 필터와 달리 삭제를 지원하면서도 오탐률 0.046%를 달성.

- HN의 Show HN에 올라온 GPU 기반 쿠쿠 필터(Cuckoo Filter) 구현체. 논문 "Cuckoo-GPU: Accelerating Cuckoo Filters on Modern GPUs"의 동반 코드임

- 쿠쿠 필터가 블룸 필터 대비 갖는 최대 장점은 **삭제 지원**인데, 이걸 CUDA로 GPU에 올려서 대량 배치 연산을 lock-free로 처리하는 게 핵심

- NVIDIA GH200 (H100 HBM3, 3.4 TB/s) 기준 95% 로드 팩터에서의 벤치마크가 인상적임:
  - CPU Partitioned Cuckoo Filter 대비: 삽입 **175배**, 조회 **351배** 빠름
  - GPU Blocked Bloom Filter 대비: 삽입은 0.35배로 더 느리지만 조회는 1.2배, 그리고 **삭제가 가능**
  - GPU Two-Choice Filter 대비: 삽입 4배, 조회 35배, 삭제 108배 빠름
  - 오탐률(FPR)은 0.046%로 Blocked Bloom(2.5%)보다 훨씬 낮음

- 설정이 꽤 유연함. 핑거프린트 크기(8/16/32비트), 버킷 크기, 퇴거 정책(DFS/BFS), CUDA 블록 크기 등 커스터마이징 가능

- 멀티 GPU는 gossip 프로토콜로 지원하고, 프로세스 간 필터 공유를 위한 IPC도 실험적으로 지원함. 헤더 온리 라이브러리라 통합도 간편

- 요구사항: CUDA Toolkit 12.9+, C++20 컴파일러, Meson 빌드 시스템

## 핵심 포인트

- CPU 대비 삽입 175배, 조회 351배 성능
- 삭제 지원이 블룸 필터 대비 핵심 차별점
- 멀티 GPU gossip 프로토콜 및 IPC 지원

## 인사이트

확률적 자료구조의 GPU 가속은 대규모 스트리밍 데이터 필터링에서 실용성이 높음. 블룸 필터의 삭제 불가 한계를 넘으면서 성능까지 챙긴 점이 눈에 띔.
