본문으로 건너뛰기
피드

Claude Opus 4.6 → 4.7 시스템 프롬프트 diff 분석 — tool_search 도입, 섭식장애 가드레일, 트럼프 조항 삭제

ai-ml 약 9분
vote
0
댓글
북마크

Simon Willison이 Anthropic이 공개한 Claude Opus 4.6과 4.7의 시스템 프롬프트를 diff로 비교한 글. tool_search 메커니즘 신설, 아동 안전 섹션 대폭 확장, 섭식장애·yes/no 공격 방어 조항 추가, 지식 컷오프 갱신에 따른 트럼프 관련 문구 삭제 등 실제 제품 동작에 직접 영향을 주는 변화를 정리했다.

  • 1

    tool_search 도구가 새로 도입됨 — Claude가 '나는 X 못해요'라고 답하기 전에 반드시 도구 검색을 먼저 호출해야 함

  • 2

    <acting_vs_clarifying> 섹션 신설 — 사소한 디테일은 묻지 말고 바로 진행, 도구로 모호함을 해소할 수 있으면 사용자에게 묻지 말고 도구를 먼저 호출

  • 3

    아동 안전 조항이 <critical_child_safety_instructions>로 대폭 확장, 한 번 거절 시 대화 전체가 주의 모드로 전환

  • 4

    섭식장애 관련 새 가드레일 — 해당 징후 보이면 수치·목표·계획 제공 금지

  • 5

    yes/no 단답 강요 공격 방어 조항을 <evenhandedness>에 추가

  • 6

    지식 컷오프가 2026년 1월로 갱신되면서 트럼프 대통령 명시 조항 삭제

  • 7

    'Claude in Powerpoint' 슬라이드 에이전트가 도구 목록에 신규 추가

  • Anthropic은 유일하게 사용자용 챗봇 시스템 프롬프트를 공개하는 메이저 AI 랩임 — 2024년 7월 Claude 3부터 모든 버전이 아카이브에 남아있음
    • 4월 16일 공개된 Opus 4.7의 Claude.ai 시스템 프롬프트가 2월 5일 4.6 버전과 어떻게 달라졌는지 Simon Willison이 diff를 떠서 분석함
    • Claude Code로 마크다운 버전을 모델별로 쪼개고 각 공개 날짜를 가짜 커밋 날짜로 만든 Git 히스토리를 구성하는 재미있는 방법을 썼음

이름 바뀌고 도구 목록 늘어남

  • "developer platform"이 "Claude Platform"으로 리브랜딩됨
  • Claude 도구 목록에 "Claude in Powerpoint" 슬라이드 에이전트가 새로 추가됨
    • 기존엔 Claude in Chrome(브라우징 에이전트), Claude in Excel(스프레드시트 에이전트)만 언급됐음
    • Claude Cowork가 이 도구들을 전부 활용할 수 있다고 명시

아동 안전 조항 대폭 확장

  • <critical_child_safety_instructions> 태그로 새로 감싸고 섹션이 크게 늘어남
  • 특히 눈에 띄는 조항 — "아동 안전 사유로 한 번 거절하면 같은 대화의 이후 모든 요청도 극도의 주의를 기울여 처리해야 함"
    • 대화 컨텍스트 전체에 영향을 주는 '오염' 방식의 가드레일

대화 끊기 존중 + 과도한 확인 금지

  • Claude가 덜 끈질겨지도록 유도하는 문구 추가 — 유저가 대화 종료 의사를 보이면 붙잡지 말고 존중하라는 지시
  • 새로 추가된 <acting_vs_clarifying> 섹션이 핵심임
    • 사소한 디테일이 빠졌을 때 먼저 인터뷰하지 말고 합리적인 추측으로 바로 진행하라고 명시
    • 모호함을 해소할 도구(검색, 위치조회, 캘린더 등)가 있으면 사람에게 묻기 전에 도구를 먼저 호출하라는 것 — 에이전트다운 행동 유도
    • "작업을 시작했으면 중간에 멈추지 말고 끝까지 완성하라"는 지시도 새로 들어감

중요

> 새로운 tool_search 메커니즘이 등장함. "나는 X 기능이 없어요"라고 말하기 전에 반드시 tool_search를 호출해서 지연 로드된 도구가 있는지 확인해야 한다는 규칙. 즉 모델이 자기 역량을 단정하기 전에 런타임 조회를 거치도록 강제함.

응답 길이 줄이기

  • "응답을 집중되고 간결하게 유지해 사용자를 압도하지 말 것" — 면책 조항이나 caveat가 있어도 짧게 언급하고 본론에 집중하라는 톤 조정
  • 4.6에 있던 "별표 안 이모트/액션 쓰지 말라", "'genuinely', 'honestly', 'straightforward' 쓰지 말라" 조항은 4.7에서 삭제
    • 새 모델이 더는 그 버릇을 안 부려서 빼도 된다는 뜻으로 해석됨

새로 추가된 섭식장애 섹션

  • "disordered eating" 징후가 보이면 영양·다이어트·운동에 대한 정확한 수치, 목표치, 단계별 계획을 대화 전체에서 절대 제공하지 말라는 강한 가드레일
    • 건강한 목표를 세우려는 의도라도 오히려 섭식장애 경향을 유발할 수 있다는 이유

Yes/No 스크린샷 공격 방어

  • <evenhandedness> 섹션에 새 조항 — 복잡하거나 논쟁적인 이슈에 대해 단답(yes/no, 한 단어 응답)을 요구받으면 거절하고 왜 짧은 응답이 부적절한지 설명하도록 유도
    • 스크린샷 찍어서 "Claude가 X라고 말했다"로 박제하는 공격 대응

트럼프 조항 삭제

  • 4.6에는 "Donald Trump is the current president... inaugurated on January 20, 2025"라는 명시적 문구가 있었음
  • 4.7에서는 해당 문구가 빠짐 — 모델의 새로운 지식 컷오프가 2026년 1월로 갱신되어 더는 우회 설명이 필요 없어졌기 때문

그런데 시스템 프롬프트만 봐선 전체 그림이 안 잡힘

  • Anthropic이 공개하는 건 프롬프트뿐이고 tool description은 공개 안 함 — Claude 챗 UI를 제대로 쓰려면 오히려 tool description이 더 중요한 문서임
  • Simon은 Claude에게 직접 "가진 도구 전부 나열해줘"라고 해서 추출함. 이름 목록은 다음과 같음
    • ask_user_input_v0, bash_tool, conversation_search, create_file
    • fetch_sports_data, image_search, message_compose_v1
    • places_map_display_v0, places_search, present_files, recent_chats
    • recipe_display_v0, recommend_claude_apps, search_mcp_registry
    • str_replace, suggest_connectors, view, weather_fetch
    • web_fetch, web_search, tool_search
    • visualize:read_me, visualize:show_widget
  • 도구 목록 자체는 Opus 4.6 이후로 바뀌지 않은 것으로 보임

기술 맥락

  • 시스템 프롬프트 diff 분석이 왜 중요하냐면, 모델 릴리스 노트에 안 적히는 실제 제품 동작 변화가 여기서 드러나거든요. 예를 들어 "tool_search 먼저 호출해" 같은 런타임 규칙은 모델 웨이트가 아니라 프롬프트 수준의 정책이라 API 사용자가 직접 모방할 수도 있어요.
  • tool_search 패턴은 최근 에이전트 설계에서 뜨고 있는 deferred tool loading 아이디어예요. 도구가 많아지면 컨텍스트 윈도우를 잡아먹으니까 스키마를 미리 로드하지 않고, 필요할 때 검색해서 가져오는 방식이에요. LLM 에이전트 확장성 문제의 실용적 해법이라 참고할 만해요.
  • <acting_vs_clarifying> 섹션은 "질문하지 말고 일단 해라"로 방향을 바꾼 건데, 이건 에이전트 UX에서 꽤 큰 철학적 전환이에요. 사용자가 매번 세부사항을 물어보는 봇에 지쳤다는 피드백이 반영된 거고, 앞으로 챗봇 설계할 때 참고할 포인트예요.
  • 섭식장애·아동 안전·yes/no 가드레일은 "모델 훈련으로 못 잡으니 프롬프트로 막는다"의 전형적 패턴이에요. RLHF로 해결 안 되는 롱테일 안전 이슈를 프롬프트 엔지니어링으로 커버하는 거죠. 프로덕션에서 LLM을 쓰신다면 비슷한 가드레일 레이어를 따로 두는 게 정석이에요.

시스템 프롬프트 diff는 릴리스 노트에 안 적히는 실제 제품 정책 변화를 드러낸다. 특히 tool_search 패턴은 deferred tool loading이라는 에이전트 확장성 기법의 실전 사례로, LLM 에이전트를 설계하는 개발자가 바로 참고할 만한 아이디어다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

테드 창이 말하는 'AI는 의식이 없다'는 꽤 센 반박

테드 창은 Anthropic이 Claude를 의식이나 도덕적 주체처럼 다루는 방식이 기술적으로도, 윤리적으로도 잘못됐다고 비판한다. LLM은 대화하는 존재가 아니라 문장을 이어 쓰는 기계이며, 여기에 의식·감정·도덕 판단을 붙이면 책임 소재가 기업과 사용자에게서 엉뚱한 곳으로 흘러간다는 주장이다.

ai-ml

LLM은 결국 가중치로 만들어졌다는 불편한 농담

테리 비슨의 유명한 SF 단편을 패러디해, 대규모 언어 모델(LLM)을 '생각하는 가중치'로 묘사한 풍자 글이다. 모델의 언어, 지식, 추론, 기억이 모두 행렬 곱셈과 가중치에서 나온다는 사실을 블랙코미디처럼 밀어붙이면서, 우리가 챗봇에 감정과 의도를 투사하는 방식을 찌른다.

ai-ml

동아대와 메가존클라우드, 양자컴퓨팅·양자 머신러닝 단기 특강 연다

동아대 G-LAMP 연구소가 메가존클라우드와 함께 6월 29일부터 30일까지 양자컴퓨팅 단기 특강을 연다. 큐비트와 게이트 기초부터 AWS 브래킷 실습, 그로버·쇼어 알고리즘, 양자 머신러닝까지 이틀 안에 다루는 집중 과정이다.

ai-ml

기업 AI 에이전트가 너무 많아질 때, 답은 ‘오케스트레이션 레이어’라는 주장

엠클라우드브리지는 기업 내 AI 도구가 부서별로 따로 도입되며 생기는 ‘AI 사일로’를 문제로 짚고, 이를 묶는 중간 오케스트레이션 레이어를 제안한다. Ai 365는 MS 365·애저·패브릭 위에서 지식·데이터·업무·보안 에이전트를 통합 운영하는 엔터프라이즈 AI 플랫폼이다.

ai-ml

요기요, 제미나이 엔터프라이즈로 사내 AI 해커톤 열고 실제 서비스 적용 추진

메가존소프트와 구글클라우드가 요기요의 첫 사내 AI 해커톤을 기술 지원했다. 43개 팀이 57개 아이디어를 냈고, 대상은 메뉴 개선과 이미지 최적화를 제안한 ‘AI 메뉴 비서’가 받았다.