본문으로 건너뛰기
피드

Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

ai-ml 약 9분
vote
0
댓글
북마크

Anthropic이 Claude Opus 4.7을 정식 출시함. Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 향상을 보이며, 비전 해상도 3배 증가, 도구 오류 복구, 장시간 자율 작업 안정성이 핵심 개선 사항임. 사이버보안 세이프가드를 먼저 테스트하는 전략적 배포 모델이기도 함.

  • 1

    CursorBench 70%(4.6은 58%), Rakuten-SWE-Bench 해결률 3배 등 코딩 벤치마크에서 전방위 향상

  • 2

    비전 해상도 3배 이상 증가 — 최대 2,576px 장변(약 375만 픽셀) 지원

  • 3

    Mythos Preview보다 사이버 역량을 의도적으로 낮추고 세이프가드를 먼저 테스트하는 단계적 배포 전략

  • 4

    xhigh 노력 레벨 신설, 태스크 버짓 퍼블릭 베타, /ultrareview 슬래시 커맨드 등 함께 출시

  • 5

    토크나이저 변경으로 토큰 사용량 1.0~1.35배 증가 가능 — 마이그레이션 시 측정 필요

뭐가 달라졌나

  • Anthropic이 Claude Opus 4.7을 정식 출시함 — Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 점프
    • 핵심 포인트는 "자율성". 예전에는 사람이 붙어서 감시해야 했던 어려운 코딩 작업을 이제 맡겨놓고 돌아와도 된다는 수준
    • 복잡한 장시간 태스크를 끈기 있게 처리하고, 지시사항을 꼼꼼히 따르며, 결과를 보고하기 전에 스스로 검증까지 함
  • 비전 능력이 대폭 강화됨 — 최대 2,576px 장변(약 375만 픽셀)까지 인식 가능
    • 이전 Claude 모델 대비 3배 이상 높은 해상도
    • 밀도 높은 스크린샷 읽기, 복잡한 다이어그램 데이터 추출, 픽셀 단위 정밀 작업이 가능해짐
  • UI/슬라이드/문서 같은 전문 업무에서 "디자인 감각"이 좋아졌다는 평가
    • "실제로 배포할 수 있는 수준의 선택을 한다"는 테스터 코멘트가 인상적

벤치마크 — 숫자가 말해주는 것들

  • CursorBench에서 70% 달성 (Opus 4.6은 58%) — 코딩 자율성 지표에서 의미 있는 도약
  • 93개 태스크 코딩 벤치마크에서 Opus 4.6 대비 13% 향상
    • Opus 4.6이나 Sonnet 4.6 둘 다 못 풀던 태스크 4개를 Opus 4.7이 해결
  • Rakuten-SWE-Bench에서 프로덕션 태스크 해결률이 Opus 4.6의 3배
    • 코드 품질, 테스트 품질 모두 두 자릿수 향상
  • XBOW 시각 정확도 벤치마크: 98.5% vs Opus 4.6의 54.5% — 거의 2배 가까이 뜀
  • Notion Agent 기준 Opus 4.6 대비 +14%, 토큰 사용량은 줄고, 도구 오류는 1/3로 감소
    • 도구 실패가 나도 멈추지 않고 계속 실행하는 최초의 모델이라는 평가
  • Databricks OfficeQA Pro에서 소스 문서 기반 추론 오류가 Opus 4.6 대비 21% 감소
  • Factory Droids 기준 태스크 성공률 10~15% 향상, 검증 단계까지 끝까지 완주
  • BigLaw Bench(Harvey) 법률 벤치마크에서 90.9% 정확도 — 양도 조항과 지배권 변경 조항을 정확히 구분함

중요

> "low-effort Opus 4.7 ≈ medium-effort Opus 4.6" — Hex 팀 평가. 같은 결과를 더 적은 리소스로 뽑아낸다는 뜻이라 비용 효율 면에서도 의미가 큼.

보안 — Mythos Preview와의 관계

  • Opus 4.7은 Mythos Preview보다 사이버 공격 역량이 의도적으로 낮게 훈련됨
    • 지난주 발표한 Project Glasswing의 일환 — AI의 사이버보안 리스크/혜택을 다룬 프로젝트
    • Mythos급 모델의 광범위 배포 전에 덜 강력한 모델에서 먼저 세이프가드를 테스트하겠다는 전략
  • 금지되거나 고위험 사이버보안 용도를 자동 감지·차단하는 세이프가드가 탑재됨
  • 합법적 보안 업무(취약점 연구, 침투 테스트, 레드팀)를 위한 Cyber Verification Program을 신설

얼리 테스터들이 뭐라 했나

  • Devin: "몇 시간 동안 일관성 있게 작업하고, 어려운 문제도 포기하지 않음. 예전엔 불가능했던 딥 인베스티게이션 작업이 가능해짐"
  • Replit: "같은 품질을 더 낮은 비용으로 달성. 기술 토론에서 반박도 잘 해줘서 더 나은 결정을 내리게 해줌. 진짜 동료 같은 느낌"
  • Vercel: "시스템 코드 작업 전에 증명(proof)을 먼저 하는 새로운 행동이 관찰됨. 이전 Claude에선 못 봤던 것"
  • Genspark: "무한 루프 저항성, 일관성, 에러 복구라는 프로덕션 3대 차별점에서 최고"
  • CodeRabbit: "코드 리뷰 리콜 10%+ 향상, 가장 찾기 어려운 버그까지 잡아냄. GPT-5.4 xhigh보다 약간 빠름"
  • 어떤 테스터는 Opus 4.7이 자율적으로 완전한 Rust TTS 엔진을 처음부터 구축했다고 — 뉴럴 모델, SIMD 커널, 브라우저 데모까지 만들고, 파이썬 레퍼런스와 일치하는지 음성 인식기로 자체 검증까지 했다고 함

같이 출시된 것들

  • xhigh 노력 레벨 신설 — high와 max 사이의 새로운 단계. Claude Code에서는 모든 계획의 기본 노력 레벨이 xhigh로 상향됨
  • 태스크 버짓(Task Budgets) 퍼블릭 베타 — 개발자가 Claude의 토큰 사용량을 가이드할 수 있게 해줌
  • Claude Code 신기능들:
    • /ultrareview — 코드 변경사항을 전담 검토하고 버그/설계 이슈를 짚어주는 슬래시 커맨드. Pro/Max 유저에게 3회 무료 제공
    • Auto 모드가 Max 유저에게 확대 — Claude가 권한 결정을 알아서 해줘서 긴 작업을 덜 끊기며 돌릴 수 있음

마이그레이션 주의점

  • 토큰 사용량에 영향을 주는 변경이 두 가지 있음:
    • 업데이트된 토크나이저 — 같은 입력이 약 1.0~1.35배 더 많은 토큰으로 매핑될 수 있음
    • 높은 노력 레벨에서 더 깊이 생각함 → 출력 토큰이 늘어남 (특히 에이전틱 세팅의 후반 턴에서)

💡

> effort 파라미터 조절, 태스크 버짓 설정, "간결하게" 프롬프팅으로 토큰 사용량을 제어할 수 있음. Anthropic 내부 테스트에선 순효과가 긍정적이었지만, 실제 트래픽에서 직접 측정해보길 권장함.

  • 가격은 Opus 4.6과 동일: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25
  • API에서 claude-opus-4-7로 호출. Amazon Bedrock, Vertex AI, Microsoft Foundry에서도 사용 가능
  • Opus 4.7은 지시사항을 훨씬 더 문자 그대로 따르기 때문에, 이전 모델용으로 작성한 프롬프트가 예상과 다른 결과를 낼 수 있음 — 프롬프트 재튜닝이 필요할 수 있음

기술 맥락

  • Anthropic이 "Mythos급 모델을 바로 풀지 않고 Opus 4.7에서 먼저 세이프가드를 테스트한다"는 전략을 택한 건 꽤 신중한 접근이에요. 사이버 공격 역량이 강한 모델을 무작정 배포했다가 문제가 터지면 규제 리스크가 커지거든요. 덜 강한 모델에서 세이프가드의 실효성을 먼저 검증하고, 그 데이터로 Mythos 배포를 준비하겠다는 거예요.
  • 토크나이저 변경으로 같은 텍스트가 1.0~1.35배 더 많은 토큰으로 잡히는 건, 모델이 텍스트를 더 세밀하게 이해하는 대신 비용이 올라갈 수 있다는 트레이드오프예요. 특히 대량 API 호출을 하는 서비스에서는 이 차이가 월 청구서에 바로 반영되니까 마이그레이션 전에 실제 트래픽으로 토큰 소비량을 꼭 측정해봐야 해요.
  • "xhigh" 노력 레벨을 새로 만든 건 high와 max 사이 간극이 너무 컸기 때문이에요. max는 토큰을 많이 쓰는 대신 정확도가 높고, high는 빠르지만 어려운 문제에서 아쉬운 경우가 있었거든요. 실무에서는 태스크 난이도에 따라 effort를 동적으로 조절하는 게 비용 최적화의 핵심이에요.
  • "도구 실패가 나도 멈추지 않고 계속 실행한다"는 Notion Agent의 평가는 에이전틱 워크플로우에서 굉장히 중요한 의미가 있어요. 기존 모델들은 API 호출 한 번 실패하면 전체 파이프라인이 멈추는 경우가 많았는데, Opus 4.7이 에러 복구를 자체적으로 처리한다는 건 프로덕션 환경에서의 안정성이 한 단계 올라갔다는 뜻이에요.

Opus 4.7의 진짜 핵심은 '벤치마크 숫자'보다 '자율 에이전트로서의 신뢰성'임. 도구 오류 복구, 무한 루프 저항, 자체 검증 같은 프로덕션 환경 안정성 지표에서 일관되게 좋은 평가를 받았다는 점이 실무 개발자에게 가장 의미 있는 부분.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI가 많이 말하는 사람의 세계관을 ‘진실’로 굳힐 수 있다는 경고

아세모글루 연구팀의 논문을 바탕으로, AI가 인터넷의 지식을 모으고 다시 인터넷에 퍼뜨리는 과정에서 사회적 편향이 강화될 수 있다는 내용을 다룬 기사다. 빠른 업데이트, 데이터 불균형, 단일 거대 AI의 구조적 한계를 짚고 전문화된 로컬 AI가 더 나은 대안이 될 수 있다고 설명한다.

ai-ml

의료 AI가 의사의 실력을 깎아먹을 수 있다는 불편한 신호

의료 AI는 정확도만 높이면 끝나는 문제가 아니라, 의사가 AI 없이도 독립적으로 판단할 수 있는지를 같이 봐야 한다는 글이다. 대장내시경, 영상의학, 정형외과 MRI, GPT-4 진단 연구를 엮어 자동화 편향과 역량 퇴화 위험을 짚는다.

ai-ml

마이크론까지 시총 1조 달러, AI 메모리 랠리는 거품일까 구조 변화일까

마이크론, 삼성전자, SK하이닉스가 AI 메모리 수요 기대감으로 급등하면서 미국에서도 AI 거품 논쟁이 다시 붙었다. 핵심은 고대역폭메모리(HBM)와 장기공급계약이 메모리 산업의 악명 높은 사이클을 진짜로 바꿨는지, 아니면 하이퍼스케일러의 AI 설비투자가 정체되는 순간 또 꺾일지에 있다.

ai-ml

네이버클라우드, 국방 전용 인공지능 조직 만든다

네이버클라우드가 6월 1일 국방 인공지능 전환 전담 태스크포스를 출범시키고, 김유원 대표가 직접 조직을 맡는다. 자체 파운데이션 모델, 클라우드 인프라, 소버린 인공지능 역량을 묶어 국방 특화 인공지능 시장을 선점하려는 움직임이다.

ai-ml

네이버클라우드, 국방 AI 전담 조직 만든다…한국판 팔란티어 실험 시작

네이버클라우드가 6월 1일 국방 AX 전담 태스크포스를 출범시키고, 김유원 대표가 직접 조직을 맡는다. 자체 파운데이션 모델, 클라우드 인프라, 소버린 AI 역량을 묶어 국방 특화 AI 모델과 서비스를 만들겠다는 구상이다. 군사 기밀과 데이터 주권이 걸린 영역이라 외산 모델 의존을 줄이려는 흐름이 핵심이다.