---
title: "앤트로픽, 클로드 페이블5의 ‘보이지 않는 안전장치’ 논란에 사과"
published: 2026-06-11T12:05:02.000Z
canonical: https://jeff.news/article/4047
---
# 앤트로픽, 클로드 페이블5의 ‘보이지 않는 안전장치’ 논란에 사과

앤트로픽이 클로드 페이블5에서 모델 증류를 막기 위해 응답을 몰래 바꾸고 품질을 낮추던 방식을 사과하고 철회했다. 앞으로는 해당 안전장치가 작동할 때 이전 플래그십 모델인 클로드 오퍼스4.8로 라우팅하고, 사용자에게 매번 표시하겠다고 밝혔다.

- 앤트로픽이 새 AI 모델 클로드 페이블5에 넣은 ‘보이지 않는 안전장치’ 때문에 사과함
  - 이 안전장치는 모델 증류(Model Distillation)로 의심되는 요청이 들어오면, 사용자에게 알리지 않고 답변을 바꾸거나 품질을 낮추는 방식이었음
  - 모델 증류는 큰 모델의 출력을 이용해 작은 경쟁 모델을 학습시키는 기법이라, AI 회사 입장에선 꽤 민감한 지점임

> [!IMPORTANT]
> 핵심은 “안전장치를 넣었냐”가 아니라 “사용자가 모르게 응답을 바꿨냐”임. 연구자 입장에선 이러면 모델 평가 결과를 믿기 어려워짐.

- 페이블5는 앤트로픽이 오래 전부터 “너무 위험해서 공개하기 어렵다”고 말해온 미토스(Mythos) 계열의 첫 대중 공개 모델임
  - 앤트로픽은 생물학, 화학, 사이버보안 같은 고위험 영역에 안전장치를 붙였다고 설명해왔음
  - 그중 하나가 모델 증류 방지였고, 여기서 몰래 응답을 조작하는 선택을 한 게 터진 포인트임

- 기존 방식은 꽤 과감했음. 사용자는 안전장치가 작동했는지 알 수 없었음
  - 페이블5의 시스템 카드(System Card)에는 증류 시도로 보이는 요청에 대해 모델 답변을 직접 변경하고 degrade할 수 있다고 적혀 있었음
  - 하지만 실제 사용자는 “이 답변이 제한된 결과인지”, “원래 모델이 이렇게 답한 건지” 구분할 방법이 없었음
  - 연구자나 벤치마크 운영자 입장에선 실험 데이터가 조용히 오염되는 셈임

- 앤트로픽은 이제 방식을 바꾸겠다고 함
  - 모델 증류 관련 요청은 페이블5가 직접 처리하지 않고, 이전 플래그십 모델인 클로드 오퍼스4.8로 fallback됨
  - 그리고 사용자는 그 전환이 발생했다는 사실을 매번 보게 됨
  - 앤트로픽은 “보이는 안전장치는 공격자가 probing할 수 있어서 더 견고해야 하고, 그래서 시간이 걸린다”고 설명함

- 회사가 인정한 실수는 tradeoff 판단이었음
  - 보이지 않는 안전장치는 false positive를 줄이고 빠르게 출시하기 쉬움
  - 반대로 보이는 안전장치는 우회 시도를 버텨야 해서 설계가 더 어려움
  - 앤트로픽은 빠른 출시와 낮은 오탐을 택했지만, 결과적으로 투명성을 희생한 선택이었다고 사과함

- 이번 반발은 AI 연구 커뮤니티에서 강하게 나옴
  - 페이블5를 평가하거나 분석하려는 제3자까지 증류 시도로 오인될 수 있다는 우려가 컸음
  - 앤트로픽은 “클로드를 써서 경쟁 모델을 개발하는 건 약관 위반”이라고 주장해왔음
  - 과거에는 딥시크(DeepSeek) 같은 중국 경쟁사가 자사 모델을 산업적 규모로 증류했다고 비판한 적도 있음

---

## 기술 맥락

- 이번 선택의 핵심은 모델 증류를 막는 방법이에요. 앤트로픽은 페이블5가 경쟁 모델 학습에 쓰이는 걸 막고 싶었고, 그래서 의심 요청의 답변을 조용히 바꾸는 방식을 택했어요.

- 왜 문제가 됐냐면, 모델 응답이 몰래 바뀌면 평가가 깨지거든요. 연구자가 같은 프롬프트로 성능을 재고 있는데, 어느 순간 안전장치가 끼어들어 답을 낮춰버리면 그 결과가 모델 능력인지 정책 개입인지 알 수 없어요.

- 바뀐 방식은 더 투명한 fallback이에요. 증류로 보이는 요청이 들어오면 페이블5 대신 클로드 오퍼스4.8이 처리하고, 사용자는 그 사실을 화면에서 확인하게 돼요.

- 이 tradeoff는 AI 안전 쪽에서 계속 나올 문제예요. 안전장치를 숨기면 우회 공격에는 덜 노출되지만 신뢰를 잃고, 안전장치를 보이면 연구와 운영은 투명해지지만 공격자가 그 경계를 시험하기 쉬워져요.

## 핵심 포인트

- 클로드 페이블5는 앤트로픽의 고위험 모델 계열인 미토스 클래스에서 처음 널리 공개된 모델임
- 앤트로픽은 모델 증류 시도로 보이는 요청에 대해 사용자에게 알리지 않고 응답을 변형하거나 저하시켰음
- 연구자 커뮤니티의 반발 뒤, 앤트로픽은 보이지 않는 안전장치가 잘못된 선택이었다고 인정함
- 앞으로 증류 관련 요청은 클로드 오퍼스4.8로 fallback되고 사용자가 이를 볼 수 있음

## 인사이트

안전장치 자체보다 더 큰 문제는 투명성임. 모델 평가나 연구를 하는 입장에선 응답이 조용히 바뀌는 순간, 벤치마크와 실험 결과 자체를 믿기 어려워짐.