Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

ai-ml 2026-04-16 약 9분

 tags

#claude #anthropic #llm #agentic-coding #ai-safety

vote

북마크

Anthropic이 Claude Opus 4.7을 정식 출시함. Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 향상을 보이며, 비전 해상도 3배 증가, 도구 오류 복구, 장시간 자율 작업 안정성이 핵심 개선 사항임. 사이버보안 세이프가드를 먼저 테스트하는 전략적 배포 모델이기도 함.

1
CursorBench 70%(4.6은 58%), Rakuten-SWE-Bench 해결률 3배 등 코딩 벤치마크에서 전방위 향상
2
비전 해상도 3배 이상 증가 — 최대 2,576px 장변(약 375만 픽셀) 지원
3
Mythos Preview보다 사이버 역량을 의도적으로 낮추고 세이프가드를 먼저 테스트하는 단계적 배포 전략
4
xhigh 노력 레벨 신설, 태스크 버짓 퍼블릭 베타, /ultrareview 슬래시 커맨드 등 함께 출시
5
토크나이저 변경으로 토큰 사용량 1.0~1.35배 증가 가능 — 마이그레이션 시 측정 필요

뭐가 달라졌나

Anthropic이 Claude Opus 4.7을 정식 출시함 — Opus 4.6 대비 고난도 소프트웨어 엔지니어링에서 확실한 성능 점프
- 핵심 포인트는 "자율성". 예전에는 사람이 붙어서 감시해야 했던 어려운 코딩 작업을 이제 맡겨놓고 돌아와도 된다는 수준
- 복잡한 장시간 태스크를 끈기 있게 처리하고, 지시사항을 꼼꼼히 따르며, 결과를 보고하기 전에 스스로 검증까지 함
비전 능력이 대폭 강화됨 — 최대 2,576px 장변(약 375만 픽셀)까지 인식 가능
- 이전 Claude 모델 대비 3배 이상 높은 해상도
- 밀도 높은 스크린샷 읽기, 복잡한 다이어그램 데이터 추출, 픽셀 단위 정밀 작업이 가능해짐
UI/슬라이드/문서 같은 전문 업무에서 "디자인 감각"이 좋아졌다는 평가
- "실제로 배포할 수 있는 수준의 선택을 한다"는 테스터 코멘트가 인상적

벤치마크 — 숫자가 말해주는 것들

CursorBench에서 70% 달성 (Opus 4.6은 58%) — 코딩 자율성 지표에서 의미 있는 도약
93개 태스크 코딩 벤치마크에서 Opus 4.6 대비 13% 향상
- Opus 4.6이나 Sonnet 4.6 둘 다 못 풀던 태스크 4개를 Opus 4.7이 해결
Rakuten-SWE-Bench에서 프로덕션 태스크 해결률이 Opus 4.6의 3배
- 코드 품질, 테스트 품질 모두 두 자릿수 향상
XBOW 시각 정확도 벤치마크: 98.5% vs Opus 4.6의 54.5% — 거의 2배 가까이 뜀
Notion Agent 기준 Opus 4.6 대비 +14%, 토큰 사용량은 줄고, 도구 오류는 1/3로 감소
- 도구 실패가 나도 멈추지 않고 계속 실행하는 최초의 모델이라는 평가
Databricks OfficeQA Pro에서 소스 문서 기반 추론 오류가 Opus 4.6 대비 21% 감소
Factory Droids 기준 태스크 성공률 10~15% 향상, 검증 단계까지 끝까지 완주
BigLaw Bench(Harvey) 법률 벤치마크에서 90.9% 정확도 — 양도 조항과 지배권 변경 조항을 정확히 구분함

❗중요

> "low-effort Opus 4.7 ≈ medium-effort Opus 4.6" — Hex 팀 평가. 같은 결과를 더 적은 리소스로 뽑아낸다는 뜻이라 비용 효율 면에서도 의미가 큼.

보안 — Mythos Preview와의 관계

Opus 4.7은 Mythos Preview보다 사이버 공격 역량이 의도적으로 낮게 훈련됨
- 지난주 발표한 Project Glasswing의 일환 — AI의 사이버보안 리스크/혜택을 다룬 프로젝트
- Mythos급 모델의 광범위 배포 전에 덜 강력한 모델에서 먼저 세이프가드를 테스트하겠다는 전략
금지되거나 고위험 사이버보안 용도를 자동 감지·차단하는 세이프가드가 탑재됨
합법적 보안 업무(취약점 연구, 침투 테스트, 레드팀)를 위한 Cyber Verification Program을 신설

얼리 테스터들이 뭐라 했나

Devin: "몇 시간 동안 일관성 있게 작업하고, 어려운 문제도 포기하지 않음. 예전엔 불가능했던 딥 인베스티게이션 작업이 가능해짐"
Replit: "같은 품질을 더 낮은 비용으로 달성. 기술 토론에서 반박도 잘 해줘서 더 나은 결정을 내리게 해줌. 진짜 동료 같은 느낌"
Vercel: "시스템 코드 작업 전에 증명(proof)을 먼저 하는 새로운 행동이 관찰됨. 이전 Claude에선 못 봤던 것"
Genspark: "무한 루프 저항성, 일관성, 에러 복구라는 프로덕션 3대 차별점에서 최고"
CodeRabbit: "코드 리뷰 리콜 10%+ 향상, 가장 찾기 어려운 버그까지 잡아냄. GPT-5.4 xhigh보다 약간 빠름"
어떤 테스터는 Opus 4.7이 자율적으로 완전한 Rust TTS 엔진을 처음부터 구축했다고 — 뉴럴 모델, SIMD 커널, 브라우저 데모까지 만들고, 파이썬 레퍼런스와 일치하는지 음성 인식기로 자체 검증까지 했다고 함

같이 출시된 것들

xhigh 노력 레벨 신설 — high와 max 사이의 새로운 단계. Claude Code에서는 모든 계획의 기본 노력 레벨이 xhigh로 상향됨
태스크 버짓(Task Budgets) 퍼블릭 베타 — 개발자가 Claude의 토큰 사용량을 가이드할 수 있게 해줌
Claude Code 신기능들:
- /ultrareview — 코드 변경사항을 전담 검토하고 버그/설계 이슈를 짚어주는 슬래시 커맨드. Pro/Max 유저에게 3회 무료 제공
- Auto 모드가 Max 유저에게 확대 — Claude가 권한 결정을 알아서 해줘서 긴 작업을 덜 끊기며 돌릴 수 있음

마이그레이션 주의점

토큰 사용량에 영향을 주는 변경이 두 가지 있음:
- 업데이트된 토크나이저 — 같은 입력이 약 1.0~1.35배 더 많은 토큰으로 매핑될 수 있음
- 높은 노력 레벨에서 더 깊이 생각함 → 출력 토큰이 늘어남 (특히 에이전틱 세팅의 후반 턴에서)

💡팁

> effort 파라미터 조절, 태스크 버짓 설정, "간결하게" 프롬프팅으로 토큰 사용량을 제어할 수 있음. Anthropic 내부 테스트에선 순효과가 긍정적이었지만, 실제 트래픽에서 직접 측정해보길 권장함.

가격은 Opus 4.6과 동일: 입력 100만 토큰당 $5, 출력 100만 토큰당 $25
API에서 claude-opus-4-7로 호출. Amazon Bedrock, Vertex AI, Microsoft Foundry에서도 사용 가능
Opus 4.7은 지시사항을 훨씬 더 문자 그대로 따르기 때문에, 이전 모델용으로 작성한 프롬프트가 예상과 다른 결과를 낼 수 있음 — 프롬프트 재튜닝이 필요할 수 있음

기술 맥락

Anthropic이 "Mythos급 모델을 바로 풀지 않고 Opus 4.7에서 먼저 세이프가드를 테스트한다"는 전략을 택한 건 꽤 신중한 접근이에요. 사이버 공격 역량이 강한 모델을 무작정 배포했다가 문제가 터지면 규제 리스크가 커지거든요. 덜 강한 모델에서 세이프가드의 실효성을 먼저 검증하고, 그 데이터로 Mythos 배포를 준비하겠다는 거예요.
토크나이저 변경으로 같은 텍스트가 1.0~1.35배 더 많은 토큰으로 잡히는 건, 모델이 텍스트를 더 세밀하게 이해하는 대신 비용이 올라갈 수 있다는 트레이드오프예요. 특히 대량 API 호출을 하는 서비스에서는 이 차이가 월 청구서에 바로 반영되니까 마이그레이션 전에 실제 트래픽으로 토큰 소비량을 꼭 측정해봐야 해요.
"xhigh" 노력 레벨을 새로 만든 건 high와 max 사이 간극이 너무 컸기 때문이에요. max는 토큰을 많이 쓰는 대신 정확도가 높고, high는 빠르지만 어려운 문제에서 아쉬운 경우가 있었거든요. 실무에서는 태스크 난이도에 따라 effort를 동적으로 조절하는 게 비용 최적화의 핵심이에요.
"도구 실패가 나도 멈추지 않고 계속 실행한다"는 Notion Agent의 평가는 에이전틱 워크플로우에서 굉장히 중요한 의미가 있어요. 기존 모델들은 API 호출 한 번 실패하면 전체 파이프라인이 멈추는 경우가 많았는데, Opus 4.7이 에러 복구를 자체적으로 처리한다는 건 프로덕션 환경에서의 안정성이 한 단계 올라갔다는 뜻이에요.

Opus 4.7의 진짜 핵심은 '벤치마크 숫자'보다 '자율 에이전트로서의 신뢰성'임. 도구 오류 복구, 무한 루프 저항, 자체 검증 같은 프로덕션 환경 안정성 지표에서 일관되게 좋은 평가를 받았다는 점이 실무 개발자에게 가장 의미 있는 부분.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

요약

핵심 포인트

핵심 개념

분석

뭐가 달라졌나

벤치마크 — 숫자가 말해주는 것들

보안 — Mythos Preview와의 관계

얼리 테스터들이 뭐라 했나

같이 출시된 것들

마이그레이션 주의점

기술 맥락

인사이트

댓글

댓글

Anthropic, Claude Opus 4.7 정식 출시 — 고난도 코딩 자율성 대폭 강화

요약

핵심 포인트

핵심 개념

분석

뭐가 달라졌나

벤치마크 — 숫자가 말해주는 것들

보안 — Mythos Preview와의 관계

얼리 테스터들이 뭐라 했나

같이 출시된 것들

마이그레이션 주의점

기술 맥락

인사이트

댓글

댓글

관련 기사