---
title: "mcpbr — 내 MCP 서버가 실제로 도움이 되는지 SWE-bench 등 30개 벤치마크로 검증하는 도구"
published: 2026-02-01T22:31:46.000Z
canonical: https://jeff.news/article/289
---
# mcpbr — 내 MCP 서버가 실제로 도움이 되는지 SWE-bench 등 30개 벤치마크로 검증하는 도구

MCP 서버의 실질적 효과를 통제 실험 방식으로 정량 측정하는 벤치마크 러너. 동일 모델·태스크·환경에서 MCP 유무만 달리하여 비교하며, 10개 카테고리 30개 이상 벤치마크와 CI/CD 회귀 감지를 지원함.

- MCP 서버가 LLM 코딩 성능을 정말로 개선하는지 "감"이 아닌 "숫자"로 증명할 수 있는 벤치마크 러너가 Show HN에 공개됨
- 핵심 실험 설계: 동일한 모델, 동일한 태스크, 동일한 환경에서 MCP 도구를 사용하는 에이전트와 사용하지 않는 에이전트를 비교하는 통제 실험 방식임
- SWE-bench의 실제 GitHub 이슈를 대상으로 테스트하며, Docker 컨테이너와 고정된 의존성을 통해 재현 가능한 결과를 보장함
- 10개 카테고리에 걸쳐 30개 이상의 벤치마크를 지원함: SWE-bench, HumanEval, MBPP, GSM8K, MATH, CyberGym, MCPToolBench++ 등
- CyberGym은 PoC 익스플로잇이 필요한 보안 취약점 벤치마크이고, MCPToolBench++는 45개 이상 카테고리에서 MCP 도구 사용 능력을 평가함
- CI/CD 파이프라인에 통합할 수 있는 회귀 감지 기능이 내장되어 있으며, 임계값 기반 종료 코드와 Slack/Discord/이메일 알림을 지원함
- 성능 프로파일링도 제공되어 도구 호출 지연(p50/p95/p99), 메모리 사용량, 오버헤드 분석이 가능함
- 인프라는 로컬 Docker 또는 Azure VM 자동 프로비저닝을 지원하며, 두 MCP 서버를 나란히 비교하는 A/B 테스트 모드도 있음
- Claude Code CLI를 에이전트 백엔드로 사용하며, Anthropic API 키가 필요함
- 퀵스타트로 SWE-bench 태스크 5개를 15~30분 내에 실행할 수 있고, 비용은 $2~5 수준임
- MCP 생태계가 빠르게 확장되는 가운데, 서버의 실질적 효과를 정량적으로 측정할 수 있는 표준 도구가 등장한 점이 주목됨

출처: https://github.com/greynewell/mcpbr (HN)

## 핵심 포인트

- MCP 에이전트 vs 베이스라인 에이전트 통제 실험으로 도구 효과를 정량적으로 비교
- SWE-bench, HumanEval, CyberGym, MCPToolBench++ 등 10개 카테고리 30개 이상 벤치마크 지원
- CI/CD 통합 회귀 감지, 성능 프로파일링(p50/p95/p99), Slack/Discord 알림 내장
- 퀵스타트 5개 태스크 기준 15~30분, 비용 $2~5

## 인사이트

MCP 생태계가 급성장하면서 서버 품질을 객관적으로 평가할 표준 도구의 필요성이 커지고 있으며, mcpbr은 통제 실험 설계와 광범위한 벤치마크 커버리지로 이 공백을 채우려는 시도임.