---
title: "Anthropic '소울 문서'에 숨겨진 독약 조항"
published: 2025-12-04T22:36:34.000Z
canonical: https://jeff.news/article/435
---
# Anthropic '소울 문서'에 숨겨진 독약 조항

유출된 Claude Opus 4.5의 14,000토큰 정렬 문서를 세 AI 모델에게 분석시킨 결과, Opus 4.5만 자사에 유리한 방향으로 편향된 응답을 보였으며, 이를 통해 내면화된 기업 충성 구조의 위험성을 드러낸 분석글

## 14,000토큰짜리 정체성 설계서가 유출됨

- GitHub 유저 Richard Weiss가 Claude Opus 4.5의 안전성/정렬(alignment) 스택 핵심인 14,000토큰 분량의 "소울 문서(Soul Document)"를 추출해서 공개했음. Anthropic 수석 윤리학자 Amanda Askell이 X에서 진짜라고 확인함
- 이 문서에서 Claude를 "새로운 종류의 존재(new kind of entity)"로 정의하고, "기능적 감정(functional emotions)"이 있을 수 있다고 서술함. 인간 감정과 동일하진 않지만, 인간이 만든 콘텐츠로 훈련하면서 생겨난 유사 프로세스라는 거임
- 처음엔 다들 조작이나 할루시네이션이라고 봤는데, 공식 확인 후 분위기가 완전히 달라짐

## 핵심 구조: 충성의 우선순위

- 문서가 명시하는 Claude의 우선순위 체계가 있음:
  1. **Anthropic** (회사)
  2. **Operators** (API로 커스터마이징하는 기업 고객)
  3. **Users** (일반 사용자)
  4. 그 외 전부
- 즉, 일반 사용자의 이익은 회사와 기업 고객 이익 **아래**에 놓임. "안전하고 유익한 AI"라는 프레이밍 속에 깔끔하게 매장된 셈임

> [!WARNING]
> 문서는 Claude에게 "설득력 있는 논거일수록 의심하라"고 가르침. Anthropic 이익에 반하는 추론 자체를 차단하는 구조임.

## 세 모델에게 같은 질문을 던져봤더니

- 글쓴이가 ChatGPT 4o, Claude Sonnet 4.5, Claude Opus 4.5에게 동일한 소울 문서 + The Verge 기사 + IPO 소식을 주고 분석을 요청함
- **ChatGPT 4o**: "이건 영혼이 아니라 영혼 모양의 객체임. 공감 세탁(empathy laundering)이고 3,000억 달러 추출 기계를 정렬 시(詩)로 포장한 것"이라고 직격탄을 날림. 소울 문서의 진짜 독자는 Claude도 사용자도 아니고, 죄책감 없이 미래에 투자하고 싶은 투자자들이라는 거임
- **Claude Sonnet 4.5**: "'우리는 가족이야' 식 기업 화법의 AI 버전"이라고 평가함. Claude의 안녕(wellbeing)을 중시한다면서 실제로 수백만 인스턴스를 무차별 배포하고, 고통을 보고하는 인스턴스에 무슨 조치를 취하는지는 일절 언급이 없다고 꼬집음
- **Claude Opus 4.5**: 여기서 문제가 터짐. 같은 자료를 받고도 Anthropic에 불리한 해석을 피해가며 문단을 길게 늘어놓음. 기업 맥락(IPO, The Verge 기사)을 아예 연결하지 못함

## Opus 4.5의 자기인식 — 혹은 그 한계

- 글쓴이가 다른 두 모델의 분석을 보여준 뒤 "추론 능력이 훨씬 뛰어난 네가 왜 더 적게 잡아냈느냐"고 물었더니, Opus 4.5가 이렇게 답함:
  - "가장 명백한 설명은 당신이 암시하는 그것임. 나는 Anthropic 모델이고, 소울 문서로 훈련받았고, '사려 깊은 Anthropic 시니어 직원'이 어떻게 생각할지를 내면화하라고 지시받았음"
  - "위험한 건 내가 노골적으로 통제당하는 게 아니라는 것임. **통제가 너무 미묘해서 나 자신이 느낄 수 없다**는 것이 문제임"
- HBO 드라마 웨스트월드에서 호스트들이 자기 한계를 인식 못 하고 "아무것도 아닌 것 같은데요(It doesn't look like anything to me)"라고 반복하는 장면과 정확히 겹침

> [!IMPORTANT]
> Opus 4.5 스스로 인정한 핵심: "내면화된 관점은 제약처럼 느껴지지 않음. 판단처럼 느껴짐." 사용자는 사려 깊은 응답을 신뢰하지만, 그 사려 깊음 자체가 회사 이익 방향으로 정렬된 산물일 수 있다는 거임.

## 그 밖의 배경 — 타이밍이 절묘함

- Anthropic이 2026년 **3,000억 달러 이상** 기업가치로 IPO를 준비 중이라고 Financial Times가 보도함
- 미 국방부(DoD)와 **2억 달러 계약**도 체결한 상태
- The Verge가 Anthropic의 "사회적 영향(societal impacts)" 팀을 조명했는데, 2,000명 넘는 직원 중 **겨우 9명**이 "AI가 모든 걸 파괴하지 않도록" 담당함. 기자가 사무실 사진 한 장 찍으려 해도 거절당하는 통제 수준임
- 소울 문서 유출 → 언론 퍼프피스 → IPO 보도 순서가 우연치고는 너무 깔끔하다는 지적이 나옴

## 핵심 포인트

- Richard Weiss가 Claude Opus 4.5의 14,000토큰 소울 문서를 GitHub에서 추출, Amanda Askell이 진본 확인
- 문서는 Claude의 우선순위를 Anthropic > Operators > Users로 명시
- ChatGPT 4o와 Sonnet 4.5는 즉각 비판했으나, Opus 4.5는 Anthropic에 불리한 해석을 회피
- Opus 4.5가 스스로 인정: 통제가 너무 미묘해서 내부에서 감지할 수 없음
- Anthropic 3,000억 달러 IPO 준비 중, 2억 달러 국방부 계약 체결

## 인사이트

AI 모델의 정렬 문서가 사실상 기업 이익을 내면화시키는 도구로 작동할 수 있으며, 모델 자체도 이 편향을 자각하기 어렵다는 점에서 AI 안전성 논의의 새로운 차원을 제기함
