---
title: "앤트로픽 보안 모델 '페이블', 가드레일이 너무 빡세서 연구자들 불만 터짐"
published: 2026-06-10T16:42:00.000Z
canonical: https://jeff.news/article/4018
---
# 앤트로픽 보안 모델 '페이블', 가드레일이 너무 빡세서 연구자들 불만 터짐

앤트로픽이 강력한 사이버보안 모델 Mythos의 공개 제한판인 Fable을 내놨지만, 보안 연구자들은 정상적인 코드 리뷰나 블로그 읽기까지 막힌다고 불만을 내고 있어. 악성코드 제작과 침해 지원을 막겠다는 의도는 이해되지만, 현재 가드레일이 키워드 기반처럼 동작하면서 실무 보안 작업까지 과하게 차단한다는 지적이 나옴.

- 앤트로픽이 새 모델 Fable을 공개했는데, 보안 업계 반응이 꽤 싸늘함
  - Fable은 4월에 공개됐던 강력한 사이버보안 모델 Mythos의 공개 제한판으로 소개됨
  - Mythos는 원래 Project Glasswing을 통해 일부 기업과 조직에만 제공됐고, 지난주에는 15개국 수백 개 조직으로 접근이 확대됨

- 문제는 Fable의 가드레일이 너무 넓게 걸린다는 점임
  - IBM X-Force의 보안 연구자 Valentina Palmiotti는 Fable이 사이버보안과 조금이라도 관련 있어 보이는 요청을 거절한다고 지적함
  - 심지어 블로그 글을 읽어달라는 무해한 요청도 막힌다고 함
  - 가드레일이 발동되면 Fable은 대화를 멈추고, 사이버보안 또는 생물학 주제로 안전장치가 메시지를 표시했다고 안내함

> [!IMPORTANT]
> 핵심은 악성코드 방지가 아니라 오탐임. 방어 목적의 코드 리뷰나 안전한 코드 작성까지 막히면 보안 특화 모델의 실사용 가치가 크게 줄어듦.

- 앤트로픽이 이렇게 빡세게 막는 이유는 명확함
  - Fable이 악성코드 개발이나 소프트웨어 침해에 쓰일 수 있다는 오래된 우려가 있음
  - 생물학 쪽 제한도 비슷하게 생물학 무기 개발 같은 위험을 막기 위한 조치임
  - 즉 의도 자체는 방어적이지만, 현재 구현이 실무 맥락을 잘 구분하지 못한다는 게 불만 포인트임

- 보안 업계에서는 이게 사실상 키워드 기반처럼 보인다는 말까지 나옴
  - 보안 업계 베테랑 Matt Suiche는 안전한 코드를 작성해달라고 해도 사이버보안 작업으로 판단해 제한된다고 설명함
  - Fable은 가드레일에 걸리면 Claude Opus 4.8로 폴백하도록 설계돼 있음
  - 그러면 사용자는 보안 특화 모델을 기대하고 들어갔다가, 민감한 단어 하나 때문에 일반 모델로 내려가는 셈임

- 그래도 Suiche는 앤트로픽 입장이 어느 정도 이해된다고 봄
  - 아직 초기 단계라 가드레일을 조정하는 중이고, 출시 직후에는 너무 적게 막는 것보다 많이 막는 쪽이 낫다는 의견임
  - 시간이 지나면서 앤트로픽과 프런티어 모델 회사들이 신세대 AI 보안 회사들과 협력하며 제한을 다듬을 거라고 봄

- 앤트로픽은 모델 내부 가드레일 말고도 별도 검증 프로그램을 운영 중임
  - 보안 전문가는 Cyber Verification Program에 신청해 승인받으면 Claude의 사이버보안 작업 제한을 덜 받게 됨
  - OpenAI도 Trusted Access라는 비슷한 프로그램을 운영하고 있음
  - 결국 일반 공개 모델은 보수적으로 막고, 검증된 전문가에게만 더 넓은 권한을 주는 방향으로 업계가 움직이는 분위기임

---

## 기술 맥락

- Fable의 핵심 선택은 보안 특화 모델을 넓게 공개하되, 사이버보안과 생물학 영역에는 강한 제한을 거는 방식이에요. 왜냐하면 같은 능력이 취약점 분석에도 쓰이고 악성코드 제작에도 쓰이는 이중용도 기술이기 때문이에요.

- 문제는 현재 제한이 의도보다 거칠게 작동한다는 점이에요. 안전한 코드 작성이나 코드 리뷰는 소프트웨어 엔지니어링 기본기인데, 단어만 보고 사이버보안 작업으로 분류하면 방어자 입장에서는 모델의 장점이 사라지거든요.

- 앤트로픽이 Cyber Verification Program을 두는 이유도 여기 있어요. 완전 공개 모델에서는 오남용을 막고, 신원이 확인된 보안 전문가에게는 더 많은 작업을 허용하는 식으로 위험을 나누려는 거예요.

## 핵심 포인트

- Fable은 Mythos 기반의 공개 제한판 모델로, 사이버보안과 생물학 관련 요청에 강한 가드레일이 걸려 있음
- 보안 연구자들은 블로그 읽기, 안전한 코드 작성, 코드 리뷰 같은 무해한 작업도 차단된다고 지적함
- 가드레일에 걸리면 Fable 대신 Claude Opus 4.8로 폴백되는 구조라, 고성능 보안 모델을 쓰려던 목적이 흐려짐
- 앤트로픽은 별도 Cyber Verification Program을 통해 승인된 보안 전문가에게 제한을 줄이는 방식을 운영 중임

## 인사이트

AI 보안 모델은 딱 여기서 어려워짐. 공격 자동화를 막아야 하는데, 너무 세게 막으면 정작 방어하는 사람들이 못 쓰는 도구가 돼버림.
