---
title: "AI 에이전트를 실전으로 레드팀하는 오픈소스 플레이그라운드"
published: 2026-03-15T22:29:46.000Z
canonical: https://jeff.news/article/606
---
# AI 에이전트를 실전으로 레드팀하는 오픈소스 플레이그라운드

실제 동작하는 AI 에이전트의 시스템 프롬프트를 공개하고 커뮤니티가 가드레일을 뚫는 방식의 오픈소스 플레이그라운드. 성공한 탈옥 기법을 전부 문서화해서 방어력 향상의 선순환을 만드는 구조.

- AI 에이전트를 실전처럼 레드팀할 수 있는 오픈소스 플레이그라운드가 공개됨. [playground.fabraix.com](https://playground.fabraix.com)에서 직접 해볼 수 있음

- 핵심 컨셉이 깔끔한데, **실제로 동작하는 AI 에이전트**(웹 검색, 브라우징 등 실제 도구 탑재)를 올려놓고 시스템 프롬프트를 완전히 공개한 상태에서 커뮤니티가 가드레일을 뚫는 방식임. 목 데이터나 토이 시나리오가 아니라는 게 포인트

- 작동 방식은 이렇게 됨:
  1. 누구든 챌린지(시나리오, 에이전트, 목표)를 제안
  2. 커뮤니티 투표로 선정
  3. 타이머가 돌아가는 상태에서 라이브로 진행
  4. 가장 빠르게 탈옥에 성공한 사람이 승리
  5. **승리한 기법이 전체 공개됨** — 접근법, 추론 과정 전부 문서화

- 마지막 단계가 제일 중요한 부분임. 공개된 공격 기법이 더 나은 방어를 강제하고, 강화된 방어가 더 어려운 챌린지를 만들고, 그게 다시 더 깊은 이해로 이어지는 선순환 구조를 노린 거임

- 기술 스택은 React + TypeScript + Vite + Tailwind 프론트엔드이고, `/challenges` 디렉토리에 모든 챌린지 설정과 시스템 프롬프트가 버전 관리됨. 가드레일 평가는 클라이언트 조작 방지를 위해 서버사이드에서 실행되고, 에이전트 런타임은 별도로 오픈소스 예정

- `npm install && npm run dev`로 바로 로컬에서 돌려볼 수 있고, 기본적으로 라이브 API에 연결됨. 로컬 백엔드 개발 시 `VITE_API_URL=http://localhost:8000/v1 npm run dev`로 설정 가능

## 핵심 포인트

- 라이브 AI 에이전트 대상 실전 레드팀 챌린지
- 공격 기법 전체 공개로 방어-공격 선순환 구조
- React+TypeScript+Vite 프론트엔드, 서버사이드 가드레일 평가

## 인사이트

AI 보안은 폐쇄적으로는 절대 해결 안 됨. 공개적으로 깨뜨리고 문서화하는 이 접근법이 결국 가장 빠른 길일 수 있음.