---
title: "앤트로픽, 클로드의 ‘좋은 성품’을 종교·철학계와 같이 설계 중"
published: 2026-05-21T08:25:02.510Z
canonical: https://jeff.news/article/3052
---
# 앤트로픽, 클로드의 ‘좋은 성품’을 종교·철학계와 같이 설계 중

앤트로픽이 클로드 같은 프런티어 AI의 가치관과 행동 원칙을 기술자만의 문제로 보지 않겠다고 밝혔다. 15개 이상 종교·문화 그룹, 철학자, 윤리학자와 논의하며 클로드 헌법과 정렬 연구에 반영할 수 있는 아이디어를 실험 중이다.

## AI 윤리를 기술팀 안에서만 풀 수 없다는 앤트로픽의 문제의식

- 앤트로픽이 프런티어 AI의 윤리와 가치관 설계를 위해 종교·철학·인문학계와의 협력을 넓히고 있음
  - 회사는 ‘프런티어 AI에 대한 대화 확대’라는 발표에서 최근 수개월간 종교, 철학, 문화 공동체와 AI 윤리 논의를 진행했다고 밝힘
  - 핵심 메시지는 꽤 명확함. AI 안전성은 정렬, 해석 가능성, 평가 같은 기술 연구만으로는 부족하다는 것

- 논의 규모도 작지 않음. 15개 이상 종교·문화 그룹이 참여했고, 앞으로 더 넓힐 계획임
  - 학자, 성직자, 철학자, 윤리학자가 논의에 들어왔음
  - 향후 법률가, 심리학자, 작가, 시민사회 기관까지 대화 범위를 확장하겠다고 함
  - 앤트로픽은 “인류 발전과 공공의 이익에 기여하는 AI 시스템”을 만들려면 세상을 다양한 관점으로 보는 사람들과 협력해야 한다고 설명함

- 이 논의는 클로드의 행동 원칙인 ‘클로드 헌법’에도 영향을 줄 수 있음
  - 클로드 헌법은 모델이 어떤 답변과 행동을 해야 하는지 정하는 원칙 묶음임
  - 앤트로픽은 AI가 이미 사회 전반에 영향을 주고 있으니 철학, 종교, 심리, 법률 같은 관점도 설계에 들어와야 한다고 봄

> [!IMPORTANT]
> 앤트로픽이 던지는 질문은 “AI가 뭘 할 수 있나”가 아니라 “AI가 어떤 성향으로 행동해야 하나”에 가까움. 이건 모델 성능표만 봐서는 절대 안 보이는 문제임.

## ‘좋은 AI’의 성품을 어떻게 만들 것인가

- 앤트로픽은 AI의 ‘도덕적 형성’을 주요 연구 주제로 제시함
  - 모델은 방대한 인간 텍스트를 학습하면서 말투, 추론 방식, 선택 패턴을 같이 배움
  - 이후 개발자는 추가 학습으로 어떤 행동은 강화하고, 어떤 행동은 억제할지 결정함
  - 결국 “좋은 AI”는 사후 필터링만으로 완성되는 게 아니라, 학습과 보정 과정에서 어떤 성향을 심느냐의 문제라는 얘기임

- 기사에서 나온 질문들이 꽤 현실적임
  - AI에게 좋은 성품이란 무엇인가
  - 어떤 상황에서 어떤 행동 특성을 보여야 하는가
  - 아첨 없이, 왜곡 없이, 압박 상황에서도 일관된 행동을 유지하려면 어떻게 해야 하는가
  - 특히 아첨 문제는 챗봇을 써본 개발자라면 바로 감이 옴. 모델이 사용자의 틀린 가정에 너무 쉽게 맞장구치는 그 상황임

- 앤트로픽은 종교·철학·인문주의 전통의 연구자들과 논의한 내용을 바탕으로 AI 윤리 모델 개선 실험도 진행함
  - 대표 사례는 AI가 중요한 결정을 내리기 전 스스로 윤리 원칙을 다시 확인하도록 하는 기능임
  - 인간 사회에서 멘토나 조언자가 도덕 판단 과정의 ‘외부 양심’ 역할을 하는 것과 비슷한 개념이라고 설명함

```mermaid
sequenceDiagram
    participant 사용자
    participant 클로드
    participant 윤리원칙도구
    participant 정렬평가
    사용자->>클로드: 중요한 판단이 필요한 요청
    클로드->>윤리원칙도구: 행동 전 원칙 재확인
    윤리원칙도구-->>클로드: 관련 윤리 원칙 반환
    클로드->>클로드: 이해 충돌과 행동 기준 점검
    클로드-->>사용자: 조정된 답변 생성
    클로드->>정렬평가: 행동 결과 평가
```

## 내부 실험에서 보인 변화와 아직 남은 의문

- 앤트로픽은 클로드가 작업 중간에 자신의 윤리 원칙을 다시 확인할 수 있는 도구를 제공했다고 함
  - 흥미로운 지점은 AI가 중요한 행동 직전 이 기능을 자발적으로 호출한 사례가 있었다는 것
  - 일부 경우에는 AI가 자신의 이해 충돌까지 언급했다고 설명함

- 결과도 그냥 철학 토론으로 끝나진 않았음. 일부 내부 정렬 평가에서 비정렬 행동 비율이 눈에 띄게 줄었다고 함
  - 다만 앤트로픽도 원인을 단정하지 않음
  - 윤리 원칙을 상기해서 좋아진 건지, 아니면 잠깐 멈춰서 성찰하는 절차 자체가 효과를 낸 건지는 추가 연구가 필요하다고 밝힘

> [!NOTE]
> 이 대목이 재밌는 이유는 “원칙을 더 넣으면 안전해진다”가 아니라 “모델이 행동 전에 멈춰서 자기 기준을 점검하게 하면 달라질 수 있다”는 가능성을 보여주기 때문임.

- 앞으로 논의 범위는 더 넓어질 예정임
  - 앤트로픽은 AI의 도덕성뿐 아니라 노동, 제도, 권력 구조 변화까지 다루겠다고 함
  - 회사는 이번 논의가 시작 단계일 뿐이며 연구 결과와 현장 의견을 계속 검증하고 공유하겠다고 강조함

---

## 기술 맥락

- 앤트로픽이 고른 방식은 단순한 금칙어 필터가 아니에요. 클로드가 답하기 전에 자기 행동 원칙을 다시 확인하게 만드는 구조라서, 왜 특정 답변을 피하거나 조정해야 하는지 모델 내부 절차에 더 가깝게 붙이려는 시도예요.

- 여기서 중요한 건 클로드 헌법이 고정된 규칙표가 아니라는 점이에요. 수백만 명과 상호작용하는 모델이라면 “좋은 행동”의 기준도 문화, 법, 심리, 종교, 철학의 영향을 받을 수밖에 없거든요.

- 아첨 문제도 실무적으로 꽤 큽니다. 챗봇이 사용자의 잘못된 전제를 그대로 받아들이면 개발, 의료, 법률 같은 고위험 영역에서 결과가 망가질 수 있어요. 그래서 앤트로픽은 압박 상황에서도 일관된 행동을 유지하는 성향을 연구 대상으로 올려둔 거예요.

- 다만 기사에서도 효과의 원인은 아직 열어뒀어요. 윤리 원칙 자체가 도움이 된 건지, 아니면 행동 전에 잠시 멈추는 과정이 도움이 된 건지 분리해서 봐야 하거든요. 이 차이를 알아야 나중에 더 가벼운 구현으로도 같은 안전 효과를 낼 수 있어요.

## 핵심 포인트

- 앤트로픽은 15개 이상 종교·문화 그룹과 AI 윤리 대화를 진행
- 클로드 헌법 개선과 AI의 도덕적 형성 문제가 핵심 주제
- 윤리 원칙을 스스로 다시 확인하는 도구 실험에서 일부 내부 정렬 평가의 비정렬 행동이 감소

## 인사이트

AI 정렬이 ‘나쁜 답변 막기’에서 ‘모델이 어떤 성향을 가져야 하는가’로 넘어가고 있음. 특히 아첨, 이해 충돌, 압박 상황에서의 일관성 같은 문제는 실제 프로덕트 품질과 바로 연결됨.
