본문으로 건너뛰기
피드

Claude Opus 4.6 → 4.7 시스템 프롬프트 diff 분석 — tool_search 도입, 섭식장애 가드레일, 트럼프 조항 삭제

ai-ml 약 9분

Simon Willison이 Anthropic이 공개한 Claude Opus 4.6과 4.7의 시스템 프롬프트를 diff로 비교한 글. tool_search 메커니즘 신설, 아동 안전 섹션 대폭 확장, 섭식장애·yes/no 공격 방어 조항 추가, 지식 컷오프 갱신에 따른 트럼프 관련 문구 삭제 등 실제 제품 동작에 직접 영향을 주는 변화를 정리했다.

  • 1

    tool_search 도구가 새로 도입됨 — Claude가 '나는 X 못해요'라고 답하기 전에 반드시 도구 검색을 먼저 호출해야 함

  • 2

    <acting_vs_clarifying> 섹션 신설 — 사소한 디테일은 묻지 말고 바로 진행, 도구로 모호함을 해소할 수 있으면 사용자에게 묻지 말고 도구를 먼저 호출

  • 3

    아동 안전 조항이 <critical_child_safety_instructions>로 대폭 확장, 한 번 거절 시 대화 전체가 주의 모드로 전환

  • 4

    섭식장애 관련 새 가드레일 — 해당 징후 보이면 수치·목표·계획 제공 금지

  • 5

    yes/no 단답 강요 공격 방어 조항을 <evenhandedness>에 추가

  • 6

    지식 컷오프가 2026년 1월로 갱신되면서 트럼프 대통령 명시 조항 삭제

  • 7

    'Claude in Powerpoint' 슬라이드 에이전트가 도구 목록에 신규 추가

  • Anthropic은 유일하게 사용자용 챗봇 시스템 프롬프트를 공개하는 메이저 AI 랩임 — 2024년 7월 Claude 3부터 모든 버전이 아카이브에 남아있음
    • 4월 16일 공개된 Opus 4.7의 Claude.ai 시스템 프롬프트가 2월 5일 4.6 버전과 어떻게 달라졌는지 Simon Willison이 diff를 떠서 분석함
    • Claude Code로 마크다운 버전을 모델별로 쪼개고 각 공개 날짜를 가짜 커밋 날짜로 만든 Git 히스토리를 구성하는 재미있는 방법을 썼음

이름 바뀌고 도구 목록 늘어남

  • "developer platform"이 "Claude Platform"으로 리브랜딩됨
  • Claude 도구 목록에 "Claude in Powerpoint" 슬라이드 에이전트가 새로 추가됨
    • 기존엔 Claude in Chrome(브라우징 에이전트), Claude in Excel(스프레드시트 에이전트)만 언급됐음
    • Claude Cowork가 이 도구들을 전부 활용할 수 있다고 명시

아동 안전 조항 대폭 확장

  • <critical_child_safety_instructions> 태그로 새로 감싸고 섹션이 크게 늘어남
  • 특히 눈에 띄는 조항 — "아동 안전 사유로 한 번 거절하면 같은 대화의 이후 모든 요청도 극도의 주의를 기울여 처리해야 함"
    • 대화 컨텍스트 전체에 영향을 주는 '오염' 방식의 가드레일

대화 끊기 존중 + 과도한 확인 금지

  • Claude가 덜 끈질겨지도록 유도하는 문구 추가 — 유저가 대화 종료 의사를 보이면 붙잡지 말고 존중하라는 지시
  • 새로 추가된 <acting_vs_clarifying> 섹션이 핵심임
    • 사소한 디테일이 빠졌을 때 먼저 인터뷰하지 말고 합리적인 추측으로 바로 진행하라고 명시
    • 모호함을 해소할 도구(검색, 위치조회, 캘린더 등)가 있으면 사람에게 묻기 전에 도구를 먼저 호출하라는 것 — 에이전트다운 행동 유도
    • "작업을 시작했으면 중간에 멈추지 말고 끝까지 완성하라"는 지시도 새로 들어감

중요

> 새로운 tool_search 메커니즘이 등장함. "나는 X 기능이 없어요"라고 말하기 전에 반드시 tool_search를 호출해서 지연 로드된 도구가 있는지 확인해야 한다는 규칙. 즉 모델이 자기 역량을 단정하기 전에 런타임 조회를 거치도록 강제함.

응답 길이 줄이기

  • "응답을 집중되고 간결하게 유지해 사용자를 압도하지 말 것" — 면책 조항이나 caveat가 있어도 짧게 언급하고 본론에 집중하라는 톤 조정
  • 4.6에 있던 "별표 안 이모트/액션 쓰지 말라", "'genuinely', 'honestly', 'straightforward' 쓰지 말라" 조항은 4.7에서 삭제
    • 새 모델이 더는 그 버릇을 안 부려서 빼도 된다는 뜻으로 해석됨

새로 추가된 섭식장애 섹션

  • "disordered eating" 징후가 보이면 영양·다이어트·운동에 대한 정확한 수치, 목표치, 단계별 계획을 대화 전체에서 절대 제공하지 말라는 강한 가드레일
    • 건강한 목표를 세우려는 의도라도 오히려 섭식장애 경향을 유발할 수 있다는 이유

Yes/No 스크린샷 공격 방어

  • <evenhandedness> 섹션에 새 조항 — 복잡하거나 논쟁적인 이슈에 대해 단답(yes/no, 한 단어 응답)을 요구받으면 거절하고 왜 짧은 응답이 부적절한지 설명하도록 유도
    • 스크린샷 찍어서 "Claude가 X라고 말했다"로 박제하는 공격 대응

트럼프 조항 삭제

  • 4.6에는 "Donald Trump is the current president... inaugurated on January 20, 2025"라는 명시적 문구가 있었음
  • 4.7에서는 해당 문구가 빠짐 — 모델의 새로운 지식 컷오프가 2026년 1월로 갱신되어 더는 우회 설명이 필요 없어졌기 때문

그런데 시스템 프롬프트만 봐선 전체 그림이 안 잡힘

  • Anthropic이 공개하는 건 프롬프트뿐이고 tool description은 공개 안 함 — Claude 챗 UI를 제대로 쓰려면 오히려 tool description이 더 중요한 문서임
  • Simon은 Claude에게 직접 "가진 도구 전부 나열해줘"라고 해서 추출함. 이름 목록은 다음과 같음
    • ask_user_input_v0, bash_tool, conversation_search, create_file
    • fetch_sports_data, image_search, message_compose_v1
    • places_map_display_v0, places_search, present_files, recent_chats
    • recipe_display_v0, recommend_claude_apps, search_mcp_registry
    • str_replace, suggest_connectors, view, weather_fetch
    • web_fetch, web_search, tool_search
    • visualize:read_me, visualize:show_widget
  • 도구 목록 자체는 Opus 4.6 이후로 바뀌지 않은 것으로 보임

기술 맥락

  • 시스템 프롬프트 diff 분석이 왜 중요하냐면, 모델 릴리스 노트에 안 적히는 실제 제품 동작 변화가 여기서 드러나거든요. 예를 들어 "tool_search 먼저 호출해" 같은 런타임 규칙은 모델 웨이트가 아니라 프롬프트 수준의 정책이라 API 사용자가 직접 모방할 수도 있어요.
  • tool_search 패턴은 최근 에이전트 설계에서 뜨고 있는 deferred tool loading 아이디어예요. 도구가 많아지면 컨텍스트 윈도우를 잡아먹으니까 스키마를 미리 로드하지 않고, 필요할 때 검색해서 가져오는 방식이에요. LLM 에이전트 확장성 문제의 실용적 해법이라 참고할 만해요.
  • <acting_vs_clarifying> 섹션은 "질문하지 말고 일단 해라"로 방향을 바꾼 건데, 이건 에이전트 UX에서 꽤 큰 철학적 전환이에요. 사용자가 매번 세부사항을 물어보는 봇에 지쳤다는 피드백이 반영된 거고, 앞으로 챗봇 설계할 때 참고할 포인트예요.
  • 섭식장애·아동 안전·yes/no 가드레일은 "모델 훈련으로 못 잡으니 프롬프트로 막는다"의 전형적 패턴이에요. RLHF로 해결 안 되는 롱테일 안전 이슈를 프롬프트 엔지니어링으로 커버하는 거죠. 프로덕션에서 LLM을 쓰신다면 비슷한 가드레일 레이어를 따로 두는 게 정석이에요.

시스템 프롬프트 diff는 릴리스 노트에 안 적히는 실제 제품 정책 변화를 드러낸다. 특히 tool_search 패턴은 deferred tool loading이라는 에이전트 확장성 기법의 실전 사례로, LLM 에이전트를 설계하는 개발자가 바로 참고할 만한 아이디어다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

구글 클라우드, 한국 3각 편대 공개 — 카뱅 전사 AI · CJ ENM · 메가존 파트너십

구글 클라우드가 넥스트 2026 직전 한국 협력 사례를 공개. 카카오뱅크는 전 임직원 1,800명 대상 제미나이 엔터프라이즈 전사 도입, CJ ENM은 Veo/Imagen으로 영상 제작 R&D, 메가존소프트는 전략적 파트너십(SPA) 체결. 금융·콘텐츠·파트너 3축으로 국내 에이전틱 AI 전환 본격화.

ai-ml

칭화대 교수가 만든 '즈푸AI' — 세계 최초 LLM 상장, GLM-4.7로 GPT에 도전

칭화대 교수 탕제가 창업한 중국 AI 스타트업 즈푸AI가 2026년 1월 홍콩 증시에 1,159대 1 경쟁률로 상장 — 세계 최초 LLM 순수 스타트업 상장 사례. GLM-4.7은 LiveCodeBench 84.9%, SWE-bench 73.8% 기록하며 Claude API 대비 10분의 1 가격으로 시장 재편을 시도 중.

ai-ml

알리바바 Qwen 3.6 공개 — 35B 모델인데 추론은 3B만 쓴다

알리바바가 오픈소스 AI 모델 Qwen 3.6-35B-A3B를 공개. MoE 구조로 총 350억 파라미터 중 연산에는 30억만 사용해 효율 중심 설계의 정점을 찍었고, 코딩·멀티모달·preserve_thinking 기능까지 붙여서 에이전트 시장까지 겨냥함.

ai-ml

리벨리온 '리벨100' 성능 공개 — H200급 연산, 전력은 3분의 1

한국 AI 반도체 스타트업 리벨리온이 차세대 NPU 리벨100의 성능을 공개했다. FP16 1페타플롭스로 엔비디아 H200과 사실상 동급이면서 전력은 1/3 수준. 삼성 144GB HBM3E와 UCIe 칩렛 구조를 채택했고 하반기 양산에 들어간다.

ai-ml

이커머스 출신이 만든 AI 마케팅 에이전트 '라이트하우스'…도메인 지식을 어떻게 LLM에 붙였나

마켓컬리·오늘의집 출신 강성주 대표의 라이트에이아이가 퍼포먼스 마케팅 데이터 해석과 크리에이티브 제안까지 원스톱으로 자동화하는 B2B AI 에이전트 '라이트하우스'를 공개했다. 이커머스 현장 지식을 범용 AI와 결합해 중소·중견 소비재 업체를 타겟으로 한다.