본문으로 건너뛰기
피드

앤트로픽, 클로드 오퍼스 4.8 공개…코딩 에이전트에 더 솔직해진 모델

ai-ml 약 6분
vote
0
댓글
북마크

앤트로픽이 클로드 오퍼스 4.8을 같은 가격으로 출시했고, 코딩·에이전트·추론·실무 작업 전반에서 오퍼스 4.7보다 개선됐다고 밝혔다. 특히 코드 결함을 그냥 넘기는 비율이 전작보다 약 4배 낮아졌고, 클로드 코드에는 수백 개 병렬 서브에이전트를 돌리는 동적 워크플로 기능이 추가됐다.

  • 1

    오퍼스 4.8은 전작과 같은 가격으로 제공되며, 빠른 모드는 이전 모델 대비 비용이 3분의 1 수준으로 내려감

  • 2

    클로드 코드의 동적 워크플로는 코드베이스 규모 마이그레이션처럼 큰 작업을 계획하고 수백 개 병렬 서브에이전트로 나눠 처리함

  • 3

    메시지 API는 messages 배열 안의 system 항목을 지원해, 에이전트 실행 중 권한·토큰 예산·환경 정보를 중간에 바꿀 수 있음

  • 4

    오퍼스 4.8 기본값은 높은 노력 수준이며, 어려운 작업이나 장기 비동기 워크플로에는 extra 설정을 권장함

  • 앤트로픽이 클로드 오퍼스 4.8을 출시함. 가격은 그대로인데, 코딩·에이전트 작업·추론·실무 지식 작업 쪽 성능을 오퍼스 4.7보다 끌어올렸다는 발표임

    • claude.ai, 클로드 코드, 메시지 API까지 같이 업데이트돼서 단순 모델 교체라기보단 개발자 워크플로 전체를 손본 쪽에 가까움
    • 빠른 모드에서는 오퍼스 4.8이 2.5배 속도로 동작할 수 있고, 이전 모델의 빠른 모드보다 비용이 3분의 1 수준으로 내려감
  • 제일 흥미로운 포인트는 ‘더 똑똑함’보다 ‘덜 허세 부림’ 쪽임

    • 앤트로픽은 오퍼스 4.8이 근거가 약한 진행 상황을 자신 있게 주장하는 일이 줄었다고 설명함
    • 자체 평가에서는 전작보다 자신이 쓴 코드의 결함을 아무 말 없이 넘길 가능성이 약 4배 낮았다고 함
    • 코딩 에이전트 써본 사람은 알겠지만, 모델이 틀린 코드보다 더 무서운 건 “다 됐다”고 말하는 틀린 코드임

중요

> 오퍼스 4.8의 핵심 개선은 코드 작성 능력만이 아니라 검증 태도임. 대규모 코드 작업에서는 “이 부분은 확실하지 않다”고 말하는 능력이 실제 생산성에 바로 연결됨.

  • 클로드 코드에는 동적 워크플로(dynamic workflows)가 연구 프리뷰로 들어감

    • 클로드가 큰 작업을 먼저 계획하고, 한 세션 안에서 수백 개 병렬 서브에이전트를 실행한 뒤, 결과를 검증하고 사용자에게 보고하는 구조임
    • 앤트로픽이 든 예시는 수십만 줄 규모 코드베이스 마이그레이션을 킥오프부터 병합까지 처리하는 시나리오임
    • 기존 테스트 스위트를 통과 기준으로 삼는다는 점도 중요함. “코드 고쳤다”가 아니라 “테스트가 받아주는 변경”을 목표로 둔다는 얘기니까
  • claude.ai와 코워크에는 노력 수준(effort)을 사용자가 조절하는 기능이 추가됨

    • 높은 노력 설정에서는 모델이 더 자주, 더 깊게 생각해서 품질을 올리는 대신 토큰을 더 씀
    • 낮은 노력 설정에서는 더 빠르게 응답하고 사용자의 사용량 제한을 천천히 소모함
    • 오퍼스 4.8 기본값은 high effort이고, 어려운 코딩 작업이나 오래 도는 비동기 워크플로에는 extra 설정을 권장함
  • 메시지 API 변경은 에이전트 개발자에게 꽤 실용적인 업데이트임

    • 이제 messages 배열 안에 system 항목을 넣을 수 있음
    • 덕분에 작업 중간에 권한, 토큰 예산, 실행 환경 같은 지시를 업데이트하면서도 프롬프트 캐시를 깨지 않아도 됨
    • 사용자 턴으로 억지로 우회하지 않아도 되니, 에이전트 런타임을 짜는 입장에서는 상태 전환이 깔끔해짐
  • 안전성 평가에서도 오퍼스 4.7보다 나아졌다는 게 앤트로픽의 주장임

    • 정렬 팀은 사용자 자율성 지원, 사용자 이익 우선 같은 친사회적 특성 지표가 새 최고치를 찍었다고 평가함
    • 기만이나 오용 협조 같은 비정렬 행동 비율은 오퍼스 4.7보다 크게 낮고, 클로드 미토스 프리뷰 수준에 가깝다고 함
  • 다음 단계도 슬쩍 공개됨. 앤트로픽은 오퍼스급 능력을 더 낮은 비용으로 제공하는 모델을 준비 중이고, 오퍼스보다 더 지능이 높은 새 클래스의 모델도 예고함

    • 프로젝트 글래스윙에서는 일부 조직이 클로드 미토스 프리뷰를 사이버보안 작업에 쓰고 있음
    • 다만 이 급의 모델은 더 강한 사이버 안전장치가 필요해서, 일반 공개 전 보강 작업을 진행 중이라고 함

기술 맥락

  • 이번 업데이트에서 앤트로픽이 밀고 있는 방향은 “모델을 더 크게”보다 “모델을 작업 시스템 안에서 더 믿고 굴릴 수 있게”에 가까워요. 코딩 에이전트는 답변 한 번 잘하는 것보다 계획, 실행, 검증을 길게 이어가는 능력이 더 중요하거든요.

  • 동적 워크플로가 수백 개 서브에이전트를 병렬로 돌린다는 건, 큰 코드베이스를 파일 단위나 모듈 단위로 나눠 처리하려는 선택이에요. 사람 한 명이 순서대로 훑는 방식으로는 수십만 줄 마이그레이션이 너무 느리고, 모델 하나가 한 번에 다 기억하기에도 맥락이 커요.

  • 노력 수준 조절은 비용과 품질을 사용자가 직접 트레이드오프하게 만드는 장치예요. 간단한 질문에는 낮은 노력으로 속도를 챙기고, 리팩터링이나 장기 에이전트 작업에서는 extra나 max로 토큰을 더 쓰는 식이에요.

  • messages 배열 안의 system 항목 지원은 에이전트 런타임을 짜는 개발자에게 의미가 커요. 실행 중간에 권한이나 토큰 예산을 바꾸고 싶은 상황이 많은데, 이걸 사용자 메시지로 흉내 내면 프롬프트 구조도 지저분해지고 캐시 효율도 떨어지거든요.

이번 발표의 핵심은 벤치마크 숫자보다 ‘에이전트가 일하다가 모르는 걸 모른다고 말하는가’에 가까움. 대규모 코드 작업에서 AI가 자신감 있게 틀리는 비용이 워낙 커서, 결함을 숨기지 않는 성향 자체가 제품 경쟁력이 되고 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

대학생들은 이미 챗지피티와 제미나이를 쪼개 쓰는 ‘AI 네이티브’가 됐다

이화여대 학생 설문과 인터뷰를 보면 생성형 AI는 과제 보조 도구를 넘어 학습, 글쓰기, 자료조사, 감정 상담까지 들어온 일상 인프라가 됐다. 학생들은 챗지피티, 제미나이, 클로드, 퍼플렉시티를 용도별로 나눠 쓰면서도 환각과 오류 때문에 교차검증이 필요하다고 보고 있다. 대학의 윤리 지침은 존재하지만 학생 체감은 낮고, 이제는 금지보다 활용 교육과 평가 방식 재설계가 핵심 이슈로 떠올랐다.

ai-ml

AI 에이전트 시대, 진짜 해자는 코딩 실력이 아니라 도메인 지식이다

이 글은 에이전트형 AI가 소프트웨어 개발의 병목을 “만들 수 있나”에서 “맞는지 판단할 수 있나”로 옮겼다고 주장한다. 일반ist 엔지니어의 코드 생산 능력보다, 특정 도메인의 정답을 알아보고 검증할 수 있는 사람이 더 큰 가치를 갖게 된다는 얘기다.

ai-ml

OpenRouter, 시리즈 B에서 1억1300만 달러 조달…멀티 모델 AI 인프라 판 커진다

OpenRouter가 알파벳 성장펀드 CapitalG 주도로 1억1300만 달러 규모 시리즈 B 투자를 받았다. 최근 6개월간 주간 처리량이 5조 토큰에서 25조 토큰으로 5배 늘었고, 올해 1천조 토큰 이상을 처리하는 속도로 성장 중이라고 밝혔다.

ai-ml

테슬라 FSD, 중국서 첫 집단 사기 소송 심리 시작

중국 베이징 법원이 테슬라의 풀 셀프 드라이빙 판매 약속을 둘러싼 소비자 사기 소송 첫 심리를 열었다. 원고 10명은 2019~2021년에 약 5만6천 위안을 내고 FSD를 샀지만, 실제 중국 출시 기능은 구형 하드웨어 차량을 배제했고 완전 자율주행도 제공하지 못했다고 주장한다. 중국 소비자보호법상 사기로 인정되면 환불뿐 아니라 3배 배상까지 이어질 수 있어 파장이 크다.

ai-ml

안도르 제작자, 1,500쪽 대본 공개 접은 이유는 “AI 학습 데이터 되기 싫어서”

스타워즈 드라마 안도르의 쇼러너 토니 길로이가 준비해둔 1,500쪽짜리 대본·콘셉트 아트 공개 계획을 접었다. 이유는 단순하다. 공개하는 순간 AI 모델 학습 데이터로 빨려 들어갈 수 있다는 우려 때문이다. 헐리우드 창작자와 스튜디오, AI 기업 사이의 저작권·학습 데이터 갈등이 다시 선명하게 드러난 사례다.