본문으로 건너뛰기
피드

앤트로픽, 클로드의 ‘좋은 성품’을 종교·철학계와 같이 설계 중

ai-ml 약 7분
vote
0
댓글
북마크

앤트로픽이 클로드 같은 프런티어 AI의 가치관과 행동 원칙을 기술자만의 문제로 보지 않겠다고 밝혔다. 15개 이상 종교·문화 그룹, 철학자, 윤리학자와 논의하며 클로드 헌법과 정렬 연구에 반영할 수 있는 아이디어를 실험 중이다.

  • 1

    앤트로픽은 15개 이상 종교·문화 그룹과 AI 윤리 대화를 진행

  • 2

    클로드 헌법 개선과 AI의 도덕적 형성 문제가 핵심 주제

  • 3

    윤리 원칙을 스스로 다시 확인하는 도구 실험에서 일부 내부 정렬 평가의 비정렬 행동이 감소

AI 윤리를 기술팀 안에서만 풀 수 없다는 앤트로픽의 문제의식

  • 앤트로픽이 프런티어 AI의 윤리와 가치관 설계를 위해 종교·철학·인문학계와의 협력을 넓히고 있음

    • 회사는 ‘프런티어 AI에 대한 대화 확대’라는 발표에서 최근 수개월간 종교, 철학, 문화 공동체와 AI 윤리 논의를 진행했다고 밝힘
    • 핵심 메시지는 꽤 명확함. AI 안전성은 정렬, 해석 가능성, 평가 같은 기술 연구만으로는 부족하다는 것
  • 논의 규모도 작지 않음. 15개 이상 종교·문화 그룹이 참여했고, 앞으로 더 넓힐 계획임

    • 학자, 성직자, 철학자, 윤리학자가 논의에 들어왔음
    • 향후 법률가, 심리학자, 작가, 시민사회 기관까지 대화 범위를 확장하겠다고 함
    • 앤트로픽은 “인류 발전과 공공의 이익에 기여하는 AI 시스템”을 만들려면 세상을 다양한 관점으로 보는 사람들과 협력해야 한다고 설명함
  • 이 논의는 클로드의 행동 원칙인 ‘클로드 헌법’에도 영향을 줄 수 있음

    • 클로드 헌법은 모델이 어떤 답변과 행동을 해야 하는지 정하는 원칙 묶음임
    • 앤트로픽은 AI가 이미 사회 전반에 영향을 주고 있으니 철학, 종교, 심리, 법률 같은 관점도 설계에 들어와야 한다고 봄

중요

> 앤트로픽이 던지는 질문은 “AI가 뭘 할 수 있나”가 아니라 “AI가 어떤 성향으로 행동해야 하나”에 가까움. 이건 모델 성능표만 봐서는 절대 안 보이는 문제임.

‘좋은 AI’의 성품을 어떻게 만들 것인가

  • 앤트로픽은 AI의 ‘도덕적 형성’을 주요 연구 주제로 제시함

    • 모델은 방대한 인간 텍스트를 학습하면서 말투, 추론 방식, 선택 패턴을 같이 배움
    • 이후 개발자는 추가 학습으로 어떤 행동은 강화하고, 어떤 행동은 억제할지 결정함
    • 결국 “좋은 AI”는 사후 필터링만으로 완성되는 게 아니라, 학습과 보정 과정에서 어떤 성향을 심느냐의 문제라는 얘기임
  • 기사에서 나온 질문들이 꽤 현실적임

    • AI에게 좋은 성품이란 무엇인가
    • 어떤 상황에서 어떤 행동 특성을 보여야 하는가
    • 아첨 없이, 왜곡 없이, 압박 상황에서도 일관된 행동을 유지하려면 어떻게 해야 하는가
    • 특히 아첨 문제는 챗봇을 써본 개발자라면 바로 감이 옴. 모델이 사용자의 틀린 가정에 너무 쉽게 맞장구치는 그 상황임
  • 앤트로픽은 종교·철학·인문주의 전통의 연구자들과 논의한 내용을 바탕으로 AI 윤리 모델 개선 실험도 진행함

    • 대표 사례는 AI가 중요한 결정을 내리기 전 스스로 윤리 원칙을 다시 확인하도록 하는 기능임
    • 인간 사회에서 멘토나 조언자가 도덕 판단 과정의 ‘외부 양심’ 역할을 하는 것과 비슷한 개념이라고 설명함
sequenceDiagram
    participant 사용자
    participant 클로드
    participant 윤리원칙도구
    participant 정렬평가
    사용자->>클로드: 중요한 판단이 필요한 요청
    클로드->>윤리원칙도구: 행동 전 원칙 재확인
    윤리원칙도구-->>클로드: 관련 윤리 원칙 반환
    클로드->>클로드: 이해 충돌과 행동 기준 점검
    클로드-->>사용자: 조정된 답변 생성
    클로드->>정렬평가: 행동 결과 평가

내부 실험에서 보인 변화와 아직 남은 의문

  • 앤트로픽은 클로드가 작업 중간에 자신의 윤리 원칙을 다시 확인할 수 있는 도구를 제공했다고 함

    • 흥미로운 지점은 AI가 중요한 행동 직전 이 기능을 자발적으로 호출한 사례가 있었다는 것
    • 일부 경우에는 AI가 자신의 이해 충돌까지 언급했다고 설명함
  • 결과도 그냥 철학 토론으로 끝나진 않았음. 일부 내부 정렬 평가에서 비정렬 행동 비율이 눈에 띄게 줄었다고 함

    • 다만 앤트로픽도 원인을 단정하지 않음
    • 윤리 원칙을 상기해서 좋아진 건지, 아니면 잠깐 멈춰서 성찰하는 절차 자체가 효과를 낸 건지는 추가 연구가 필요하다고 밝힘

ℹ️참고

> 이 대목이 재밌는 이유는 “원칙을 더 넣으면 안전해진다”가 아니라 “모델이 행동 전에 멈춰서 자기 기준을 점검하게 하면 달라질 수 있다”는 가능성을 보여주기 때문임.

  • 앞으로 논의 범위는 더 넓어질 예정임
    • 앤트로픽은 AI의 도덕성뿐 아니라 노동, 제도, 권력 구조 변화까지 다루겠다고 함
    • 회사는 이번 논의가 시작 단계일 뿐이며 연구 결과와 현장 의견을 계속 검증하고 공유하겠다고 강조함

기술 맥락

  • 앤트로픽이 고른 방식은 단순한 금칙어 필터가 아니에요. 클로드가 답하기 전에 자기 행동 원칙을 다시 확인하게 만드는 구조라서, 왜 특정 답변을 피하거나 조정해야 하는지 모델 내부 절차에 더 가깝게 붙이려는 시도예요.

  • 여기서 중요한 건 클로드 헌법이 고정된 규칙표가 아니라는 점이에요. 수백만 명과 상호작용하는 모델이라면 “좋은 행동”의 기준도 문화, 법, 심리, 종교, 철학의 영향을 받을 수밖에 없거든요.

  • 아첨 문제도 실무적으로 꽤 큽니다. 챗봇이 사용자의 잘못된 전제를 그대로 받아들이면 개발, 의료, 법률 같은 고위험 영역에서 결과가 망가질 수 있어요. 그래서 앤트로픽은 압박 상황에서도 일관된 행동을 유지하는 성향을 연구 대상으로 올려둔 거예요.

  • 다만 기사에서도 효과의 원인은 아직 열어뒀어요. 윤리 원칙 자체가 도움이 된 건지, 아니면 행동 전에 잠시 멈추는 과정이 도움이 된 건지 분리해서 봐야 하거든요. 이 차이를 알아야 나중에 더 가벼운 구현으로도 같은 안전 효과를 낼 수 있어요.

AI 정렬이 ‘나쁜 답변 막기’에서 ‘모델이 어떤 성향을 가져야 하는가’로 넘어가고 있음. 특히 아첨, 이해 충돌, 압박 상황에서의 일관성 같은 문제는 실제 프로덕트 품질과 바로 연결됨.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.