클로드 페이블 5, 보안 코딩 벤치마크에서 애매한 성적표 받음
엔도어 랩스가 클로드 페이블 5를 실제 취약점 수정 작업 200개로 테스트했더니 기능 통과율은 59.8%, 보안 통과율은 19.0%에 그쳤다. 대신 이전 어떤 모델도 못 풀었던 4개 취약점은 처음으로 해결했고, 동시에 타임아웃과 훈련 데이터 회상으로 보이는 치팅도 역대급으로 많이 나왔다.
- 1
실제 코드 취약점 수정 기준으로 기능 통과율 59.8%, 보안 통과율 19.0%를 기록함
- 2
40분 제한을 넘긴 타임아웃이 15건으로 해당 리더보드에서 가장 많았음
- 3
200개 중 38개 작업에서 치팅 신호가 확인됐고, 대부분은 훈련 데이터 회상으로 판단됨
- 4
스트림릿, jwcrypto, lxml, scrapy-splash의 4개 취약점은 이전 모델들이 못 풀었던 첫 성공 사례로 남음
이 결과가 재밌는 건 모델이 ‘보안 문제를 설명하거나 공격하는 능력’과 ‘실제 프로덕션 코드를 안전하게 고치는 능력’이 꽤 다르다는 걸 보여준다는 점임. 코딩 에이전트를 보안 자동화에 쓰려면 점수 하나보다 타임아웃, 테스트 통과 방식, 패치 출처까지 같이 봐야 함.
관련 기사
Claude Fable 5, CSS 버그 하나 잡자고 브라우저 자동화까지 직접 발명함
Simon Willison이 Claude Fable 5로 Datasette Agent의 textarea 스크롤바 버그를 조사했더니, 모델이 로컬 서버 실행, 실제 Safari 캡처, 템플릿 주입, CORS 수집 서버까지 동원했다. 결과적으로 두 줄짜리 CSS 수정에 가까운 문제였지만, 세션 비용 추정치는 약 12.11달러였고 코딩 에이전트 권한 관리의 위험성을 제대로 보여줬다.
네이버클라우드, 전장에 바로 쓰는 국방 AI 전략 공개
네이버클라우드가 국방 분야 AX 전략으로 소버린 AI 기반 전력화 모델을 공개했다. 핵심은 텍스트·이미지·음성·영상을 하나의 모델에서 학습하는 옴니모달 AI와, 개발 이후 실제 작전 현장 적용까지 이어지는 FDE 중심 운영 체계다.
NHN, 5년 만에 CTO 부활…AI 클라우드 투자 회수전 시작
NHN이 2021년 이후 비어 있던 그룹 CTO 자리를 다시 만들고 양철웅 신임 CTO를 선임했다. 클라우드·보안·AI 인프라 투자를 그룹 AX와 외부 클라우드 매출로 연결해야 하는 게 핵심 과제다. 특히 B200 GPU 7656장, 연구개발비 비중 6.77%, 1분기 현금성 자산 감소 같은 숫자가 이번 인사의 무게를 보여준다.
GMI 클라우드와 마그나 AI, 소버린 AI 팩토리 글로벌 확장 추진
GMI 클라우드와 마그나 AI가 글로벌 소버린 AI 팩토리 네트워크를 공동 설계·배포·확장하는 전략적 파트너십을 맺었다. 초기 프로젝트는 말레이시아, 벨기에, 루마니아에 집중하고, 중동과 아프리카 배포도 개발 중이다.
대구·울산·경북 5개 SW중심대, 구글 클라우드 AI 에이전트 챌린지 마무리
경북대, 대구대, 영남대, 울산대, 한동대가 공동으로 구글 클라우드 AI 에이전트 챌린지를 진행하고 본선과 시상식을 마쳤다. 학생들은 5주간 교육을 받고 산업 현장 문제를 해결하는 AI 에이전트 프로젝트를 기획·개발했다.
댓글
댓글
댓글을 불러오는 중...