앤트로픽, 클로드 페이블5의 ‘보이지 않는 안전장치’ 논란에 사과

ai-ml 2026-06-11 약 5분

 tags

#claude #distillation #guardrails #safety

vote

북마크

앤트로픽이 클로드 페이블5에서 모델 증류를 막기 위해 응답을 몰래 바꾸고 품질을 낮추던 방식을 사과하고 철회했다. 앞으로는 해당 안전장치가 작동할 때 이전 플래그십 모델인 클로드 오퍼스4.8로 라우팅하고, 사용자에게 매번 표시하겠다고 밝혔다.

1
클로드 페이블5는 앤트로픽의 고위험 모델 계열인 미토스 클래스에서 처음 널리 공개된 모델임
2
앤트로픽은 모델 증류 시도로 보이는 요청에 대해 사용자에게 알리지 않고 응답을 변형하거나 저하시켰음
3
연구자 커뮤니티의 반발 뒤, 앤트로픽은 보이지 않는 안전장치가 잘못된 선택이었다고 인정함
4
앞으로 증류 관련 요청은 클로드 오퍼스4.8로 fallback되고 사용자가 이를 볼 수 있음

앤트로픽이 새 AI 모델 클로드 페이블5에 넣은 ‘보이지 않는 안전장치’ 때문에 사과함
- 이 안전장치는 모델 증류(Model Distillation)로 의심되는 요청이 들어오면, 사용자에게 알리지 않고 답변을 바꾸거나 품질을 낮추는 방식이었음
- 모델 증류는 큰 모델의 출력을 이용해 작은 경쟁 모델을 학습시키는 기법이라, AI 회사 입장에선 꽤 민감한 지점임

❗중요

> 핵심은 “안전장치를 넣었냐”가 아니라 “사용자가 모르게 응답을 바꿨냐”임. 연구자 입장에선 이러면 모델 평가 결과를 믿기 어려워짐.

페이블5는 앤트로픽이 오래 전부터 “너무 위험해서 공개하기 어렵다”고 말해온 미토스(Mythos) 계열의 첫 대중 공개 모델임
- 앤트로픽은 생물학, 화학, 사이버보안 같은 고위험 영역에 안전장치를 붙였다고 설명해왔음
- 그중 하나가 모델 증류 방지였고, 여기서 몰래 응답을 조작하는 선택을 한 게 터진 포인트임
기존 방식은 꽤 과감했음. 사용자는 안전장치가 작동했는지 알 수 없었음
- 페이블5의 시스템 카드(System Card)에는 증류 시도로 보이는 요청에 대해 모델 답변을 직접 변경하고 degrade할 수 있다고 적혀 있었음
- 하지만 실제 사용자는 “이 답변이 제한된 결과인지”, “원래 모델이 이렇게 답한 건지” 구분할 방법이 없었음
- 연구자나 벤치마크 운영자 입장에선 실험 데이터가 조용히 오염되는 셈임
앤트로픽은 이제 방식을 바꾸겠다고 함
- 모델 증류 관련 요청은 페이블5가 직접 처리하지 않고, 이전 플래그십 모델인 클로드 오퍼스4.8로 fallback됨
- 그리고 사용자는 그 전환이 발생했다는 사실을 매번 보게 됨
- 앤트로픽은 “보이는 안전장치는 공격자가 probing할 수 있어서 더 견고해야 하고, 그래서 시간이 걸린다”고 설명함
회사가 인정한 실수는 tradeoff 판단이었음
- 보이지 않는 안전장치는 false positive를 줄이고 빠르게 출시하기 쉬움
- 반대로 보이는 안전장치는 우회 시도를 버텨야 해서 설계가 더 어려움
- 앤트로픽은 빠른 출시와 낮은 오탐을 택했지만, 결과적으로 투명성을 희생한 선택이었다고 사과함
이번 반발은 AI 연구 커뮤니티에서 강하게 나옴
- 페이블5를 평가하거나 분석하려는 제3자까지 증류 시도로 오인될 수 있다는 우려가 컸음
- 앤트로픽은 “클로드를 써서 경쟁 모델을 개발하는 건 약관 위반”이라고 주장해왔음
- 과거에는 딥시크(DeepSeek) 같은 중국 경쟁사가 자사 모델을 산업적 규모로 증류했다고 비판한 적도 있음

기술 맥락

이번 선택의 핵심은 모델 증류를 막는 방법이에요. 앤트로픽은 페이블5가 경쟁 모델 학습에 쓰이는 걸 막고 싶었고, 그래서 의심 요청의 답변을 조용히 바꾸는 방식을 택했어요.
왜 문제가 됐냐면, 모델 응답이 몰래 바뀌면 평가가 깨지거든요. 연구자가 같은 프롬프트로 성능을 재고 있는데, 어느 순간 안전장치가 끼어들어 답을 낮춰버리면 그 결과가 모델 능력인지 정책 개입인지 알 수 없어요.
바뀐 방식은 더 투명한 fallback이에요. 증류로 보이는 요청이 들어오면 페이블5 대신 클로드 오퍼스4.8이 처리하고, 사용자는 그 사실을 화면에서 확인하게 돼요.
이 tradeoff는 AI 안전 쪽에서 계속 나올 문제예요. 안전장치를 숨기면 우회 공격에는 덜 노출되지만 신뢰를 잃고, 안전장치를 보이면 연구와 운영은 투명해지지만 공격자가 그 경계를 시험하기 쉬워져요.

안전장치 자체보다 더 큰 문제는 투명성임. 모델 평가나 연구를 하는 입장에선 응답이 조용히 바뀌는 순간, 벤치마크와 실험 결과 자체를 믿기 어려워짐.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

앤트로픽, 클로드 페이블5의 ‘보이지 않는 안전장치’ 논란에 사과

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

앤트로픽, 클로드 페이블5의 ‘보이지 않는 안전장치’ 논란에 사과

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사