AI 코딩 도구 'Over-Editing' 문제 정량 측정 — GPT-5.4가 가장 심하고 Claude Opus 4.6이 가장 얌전
Cursor, Copilot, Claude Code 같은 AI 코딩 도구가 버그 한 줄만 고쳐달라는 요청에 함수 절반을 다시 쓰는 'Over-Editing' 문제를 정량화한 연구. 400개 문제를 프로그램적으로 오염시켜 최소 수정 기준을 수학적으로 정의하고, 프론티어 모델들을 Pass@1과 편집 최소성 두 축으로 비교했다. RL 훈련으로 over-editing을 개선하면서도 일반 코딩 능력을 보존할 수 있음을 보였다.
- 1
Over-editing은 테스트로 잡히지 않는 브라운필드 실패 유형 — 코드 리뷰 부담만 폭증
- 2
GPT-5.4는 Levenshtein 0.39, Pass@1 0.723으로 가장 심함 / Claude Opus 4.6은 Pass@1 0.912, Levenshtein 0.06으로 최고
- 3
BigCodeBench 문제를 기계적으로 오염(연산자 뒤집기 등)시켜 ground truth를 수학적으로 정의
- 4
'원본 보존해라' 한 줄 프롬프트만 추가해도 모든 모델 개선, Pass@1까지 오름
- 5
리즈닝 모델은 디폴트로 over-edit 더 함 (Opus 4.6은 예외) — 단 명시 지시 시 역전
- 6
RL만이 out-of-domain 일반화 성공, SFT는 LiveCodeBench에서 43% 성능 저하
- 7
LoRA rank 64가 full RL에 거의 근접 — 스타일 튜닝엔 적은 파라미터로 충분
Pass@1이라는 단일 지표 시대가 끝나고 '얼마나 얌전하게 고치는가'가 새로운 평가 축으로 등장했다. 실무적으로는 모델 선택과 프롬프트 문구 하나가 코드 리뷰 부담을 좌우한다는 구체적 근거가 된다.
관련 기사
구글 클라우드 Next '26 — 8세대 TPU $/성능 80%↑, 분당 토큰 160억 돌파
구글 클라우드가 라스베이거스 Next 2026에서 '에이전틱 엔터프라이즈' 시대를 선언했다. 8세대 TPU(학습용 8t, 추론용 8i)를 공개하며 달러당 성능 80% 향상을 내세웠고, Vertex AI를 Gemini Enterprise Agent Platform으로 확장했다. 모델 가든에 Claude Opus 4.7을 추가하고 위즈와 보안 통합을 강화했다.
Claude 25배 싼 Kimi K2.6 풀렸다 — 엔지니어 국가의 물량전, 한국은 A·B·C 중 어디 설 건가
중국 문샷AI가 1조 파라미터 Kimi K2.6을 오픈소스로 공개했다. SWE-Bench Pro에서 Claude Opus 4.6을 앞서고 API 가격은 1/4 수준이다. 댄 왕의 <Breakneck>를 빌려 '짓는 나라(중국) vs 막는 나라(미국)' 구도를 제시하며, 미국 B2C의 구조적 적자와 한국의 세 가지 전략적 선택(A·B·C)을 짚는 칼럼.
엔비디아, 서울에서 'OpenClaw' 첫 공개…DGX 스파크로 로컬 에이전트 수요 선점
엔비디아가 자율형 AI 에이전트 시장의 첫 글로벌 거점으로 한국을 택해 서울에서 '네모트론 디벨로퍼 데이즈 2026'을 열었다. 오픈소스 프레임워크 OpenClaw, 보안 런타임 OpenShell, 엔터프라이즈 서비스 NemoClaw로 이어지는 3층 스택과 1200억 파라미터 모델을 API 비용 없이 돌리는 DGX 스파크를 풀스택으로 엮어 수요를 흡수한다.
삼성SDS, 2031년까지 10조 쏜다…AI DC에 5조·M&A에 4조, 구글과 소버린 AI 협력
삼성SDS가 2031년까지 총 10조원을 투입해 AI 풀스택 기업으로 전환한다. AI 인프라 5조, 서비스·플랫폼 1조, M&A 4조로 나뉘며 이미 구미 60MW 데이터센터에 2.1조가 집행 중이다. 구글과 GDC·제미나이 엔터프라이즈 기반 소버린 AI 파트너십도 체결했다.
스탠퍼드 AI 인덱스 '한국 주목할 모델' 5→8개로 정정…과기정통부가 이의제기
스탠퍼드대 HAI의 'AI 인덱스 2026' 보고서에서 한국의 주목할 만한 AI 모델 수가 5개에서 8개로 정정된다. 과기정통부가 근거 DB인 에포크 AI에 8개로 등재된 점을 들어 이의를 제기한 결과다. 추가된 3개는 SKT A.X K1, NC AI 배키, 네이버 하이퍼클로바 X 시드 32B 싱크다.
댓글
댓글
댓글을 불러오는 중...