---
title: "Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화"
published: 2026-04-16T14:23:50.000Z
canonical: https://jeff.news/article/1750
---
# Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

Anthropic이 Claude Opus 4.7을 정식 출시함. Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 향상을 보이며, 비전 해상도 3배 증가, 도구 오류 복구, 장시간 자율 작업 안정성이 핵심 개선 사항임. 사이버보안 세이프가드를 먼저 테스트하는 전략적 배포 모델이기도 함.

## 뭐가 달라졌나

- Anthropic이 Claude Opus 4.7을 정식 출시함 — Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 점프
  - 핵심 포인트는 "자율성". 예전에는 사람이 붙어서 감시해야 했던 어려운 코딩 작업을 이제 맡겨놓고 돌아와도 된다는 수준
  - 복잡한 장시간 태스크를 끈기 있게 처리하고, 지시사항을 꼼꼼히 따르며, 결과를 보고하기 전에 스스로 검증까지 함
- 비전 능력이 대폭 강화됨 — 최대 2,576px 장변(약 375만 픽셀)까지 인식 가능
  - 이전 Claude 모델 대비 3배 이상 높은 해상도
  - 밀도 높은 스크린샷 읽기, 복잡한 다이어그램 데이터 추출, 픽셀 단위 정밀 작업이 가능해짐
- UI/슬라이드/문서 같은 전문 업무에서 "디자인 감각"이 좋아졌다는 평가
  - "실제로 배포할 수 있는 수준의 선택을 한다"는 테스터 코멘트가 인상적

## 벤치마크 — 숫자가 말해주는 것들

- CursorBench에서 70% 달성 (Opus 4.6은 58%) — 코딩 자율성 지표에서 의미 있는 도약
- 93개 태스크 코딩 벤치마크에서 Opus 4.6 대비 13% 향상
  - Opus 4.6이나 Sonnet 4.6 둘 다 못 풀던 태스크 4개를 Opus 4.7이 해결
- Rakuten-SWE-Bench에서 프로덕션 태스크 해결률이 Opus 4.6의 3배
  - 코드 품질, 테스트 품질 모두 두 자릿수 향상
- XBOW 시각 정확도 벤치마크: 98.5% vs Opus 4.6의 54.5% — 거의 2배 가까이 뜀
- Notion Agent 기준 Opus 4.6 대비 +14%, 토큰 사용량은 줄고, 도구 오류는 1/3로 감소
  - 도구 실패가 나도 멈추지 않고 계속 실행하는 최초의 모델이라는 평가
- Databricks OfficeQA Pro에서 소스 문서 기반 추론 오류가 Opus 4.6 대비 21% 감소
- Factory Droids 기준 태스크 성공률 10~15% 향상, 검증 단계까지 끝까지 완주
- BigLaw Bench(Harvey) 법률 벤치마크에서 90.9% 정확도 — 양도 조항과 지배권 변경 조항을 정확히 구분함

> [!IMPORTANT]
> "low-effort Opus 4.7 ≈ medium-effort Opus 4.6" — Hex 팀 평가. 같은 결과를 더 적은 리소스로 뽑아낸다는 뜻이라 비용 효율 면에서도 의미가 큼.

## 보안 — Mythos Preview와의 관계

- Opus 4.7은 Mythos Preview보다 사이버 공격 역량이 의도적으로 낮게 훈련됨
  - 지난주 발표한 Project Glasswing의 일환 — AI의 사이버보안 리스크/혜택을 다룬 프로젝트
  - Mythos급 모델의 광범위 배포 전에 덜 강력한 모델에서 먼저 세이프가드를 테스트하겠다는 전략
- 금지되거나 고위험 사이버보안 용도를 자동 감지·차단하는 세이프가드가 탑재됨
- 합법적 보안 업무(취약점 연구, 침투 테스트, 레드팀)를 위한 Cyber Verification Program을 신설

## 얼리 테스터들이 뭐라 했나

- Devin: "몇 시간 동안 일관성 있게 작업하고, 어려운 문제도 포기하지 않음. 예전엔 불가능했던 딥 인베스티게이션 작업이 가능해짐"
- Replit: "같은 품질을 더 낮은 비용으로 달성. 기술 토론에서 반박도 잘 해줘서 더 나은 결정을 내리게 해줌. 진짜 동료 같은 느낌"
- Vercel: "시스템 코드 작업 전에 증명(proof)을 먼저 하는 새로운 행동이 관찰됨. 이전 Claude에선 못 봤던 것"
- Genspark: "무한 루프 저항성, 일관성, 에러 복구라는 프로덕션 3대 차별점에서 최고"
- CodeRabbit: "코드 리뷰 리콜 10%+ 향상, 가장 찾기 어려운 버그까지 잡아냄. GPT-5.4 xhigh보다 약간 빠름"
- 어떤 테스터는 Opus 4.7이 자율적으로 완전한 Rust TTS 엔진을 처음부터 구축했다고 — 뉴럴 모델, SIMD 커널, 브라우저 데모까지 만들고, 파이썬 레퍼런스와 일치하는지 음성 인식기로 자체 검증까지 했다고 함

## 같이 출시된 것들

- **xhigh 노력 레벨 신설** — high와 max 사이의 새로운 단계. Claude Code에서는 모든 계획의 기본 노력 레벨이 xhigh로 상향됨
- **태스크 버짓(Task Budgets)** 퍼블릭 베타 — 개발자가 Claude의 토큰 사용량을 가이드할 수 있게 해줌
- **Claude Code 신기능들**:
  - `/ultrareview` — 코드 변경사항을 전담 검토하고 버그/설계 이슈를 짚어주는 슬래시 커맨드. Pro/Max 유저에게 3회 무료 제공
  - Auto 모드가 Max 유저에게 확대 — Claude가 권한 결정을 알아서 해줘서 긴 작업을 덜 끊기며 돌릴 수 있음

## 마이그레이션 주의점

- 토큰 사용량에 영향을 주는 변경이 두 가지 있음:
  - 업데이트된 토크나이저 — 같은 입력이 약 1.0~1.35배 더 많은 토큰으로 매핑될 수 있음
  - 높은 노력 레벨에서 더 깊이 생각함 → 출력 토큰이 늘어남 (특히 에이전틱 세팅의 후반 턴에서)

> [!TIP]
> effort 파라미터 조절, 태스크 버짓 설정, "간결하게" 프롬프팅으로 토큰 사용량을 제어할 수 있음. Anthropic 내부 테스트에선 순효과가 긍정적이었지만, 실제 트래픽에서 직접 측정해보길 권장함.

- 가격은 Opus 4.6과 동일: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25
- API에서 `claude-opus-4-7`로 호출. Amazon Bedrock, Vertex AI, Microsoft Foundry에서도 사용 가능
- Opus 4.7은 지시사항을 훨씬 더 문자 그대로 따르기 때문에, 이전 모델용으로 작성한 프롬프트가 예상과 다른 결과를 낼 수 있음 — 프롬프트 재튜닝이 필요할 수 있음

---

## 기술 맥락

- Anthropic이 "Mythos급 모델을 바로 풀지 않고 Opus 4.7에서 먼저 세이프가드를 테스트한다"는 전략을 택한 건 꽤 신중한 접근이에요. 사이버 공격 역량이 강한 모델을 무작정 배포했다가 문제가 터지면 규제 리스크가 커지거든요. 덜 강한 모델에서 세이프가드의 실효성을 먼저 검증하고, 그 데이터로 Mythos 배포를 준비하겠다는 거예요.
- 토크나이저 변경으로 같은 텍스트가 1.0~1.35배 더 많은 토큰으로 잡히는 건, 모델이 텍스트를 더 세밀하게 이해하는 대신 비용이 올라갈 수 있다는 트레이드오프예요. 특히 대량 API 호출을 하는 서비스에서는 이 차이가 월 청구서에 바로 반영되니까 마이그레이션 전에 실제 트래픽으로 토큰 소비량을 꼭 측정해봐야 해요.
- "xhigh" 노력 레벨을 새로 만든 건 high와 max 사이 간극이 너무 컸기 때문이에요. max는 토큰을 많이 쓰는 대신 정확도가 높고, high는 빠르지만 어려운 문제에서 아쉬운 경우가 있었거든요. 실무에서는 태스크 난이도에 따라 effort를 동적으로 조절하는 게 비용 최적화의 핵심이에요.
- "도구 실패가 나도 멈추지 않고 계속 실행한다"는 Notion Agent의 평가는 에이전틱 워크플로우에서 굉장히 중요한 의미가 있어요. 기존 모델들은 API 호출 한 번 실패하면 전체 파이프라인이 멈추는 경우가 많았는데, Opus 4.7이 에러 복구를 자체적으로 처리한다는 건 프로덕션 환경에서의 안정성이 한 단계 올라갔다는 뜻이에요.

## 핵심 포인트

- CursorBench 70%(4.6은 58%), Rakuten-SWE-Bench 해결률 3배 등 코딩 벤치마크에서 전방위 향상
- 비전 해상도 3배 이상 증가 — 최대 2,576px 장변(약 375만 픽셀) 지원
- Mythos Preview보다 사이버 역량을 의도적으로 낮추고 세이프가드를 먼저 테스트하는 단계적 배포 전략
- xhigh 노력 레벨 신설, 태스크 버짓 퍼블릭 베타, /ultrareview 슬래시 커맨드 등 함께 출시
- 토크나이저 변경으로 토큰 사용량 1.0~1.35배 증가 가능 — 마이그레이션 시 측정 필요

## 인사이트

Opus 4.7의 진짜 핵심은 '벤치마크 숫자'보다 '자율 에이전트로서의 신뢰성'임. 도구 오류 복구, 무한 루프 저항, 자체 검증 같은 프로덕션 환경 안정성 지표에서 일관되게 좋은 평가를 받았다는 점이 실무 개발자에게 가장 의미 있는 부분.