AI 코딩 도구 'Over-Editing' 문제 정량 측정 — GPT-5.4가 가장 심하고 Claude Opus 4.6이 가장 얌전
Cursor, Copilot, Claude Code 같은 AI 코딩 도구가 버그 한 줄만 고쳐달라는 요청에 함수 절반을 다시 쓰는 'Over-Editing' 문제를 정량화한 연구. 400개 문제를 프로그램적으로 오염시켜 최소 수정 기준을 수학적으로 정의하고, 프론티어 모델들을 Pass@1과 편집 최소성 두 축으로 비교했다. RL 훈련으로 over-editing을 개선하면서도 일반 코딩 능력을 보존할 수 있음을 보였다.
- 1
Over-editing은 테스트로 잡히지 않는 브라운필드 실패 유형 — 코드 리뷰 부담만 폭증
- 2
GPT-5.4는 Levenshtein 0.39, Pass@1 0.723으로 가장 심함 / Claude Opus 4.6은 Pass@1 0.912, Levenshtein 0.06으로 최고
- 3
BigCodeBench 문제를 기계적으로 오염(연산자 뒤집기 등)시켜 ground truth를 수학적으로 정의
- 4
'원본 보존해라' 한 줄 프롬프트만 추가해도 모든 모델 개선, Pass@1까지 오름
- 5
리즈닝 모델은 디폴트로 over-edit 더 함 (Opus 4.6은 예외) — 단 명시 지시 시 역전
- 6
RL만이 out-of-domain 일반화 성공, SFT는 LiveCodeBench에서 43% 성능 저하
- 7
LoRA rank 64가 full RL에 거의 근접 — 스타일 튜닝엔 적은 파라미터로 충분
Pass@1이라는 단일 지표 시대가 끝나고 '얼마나 얌전하게 고치는가'가 새로운 평가 축으로 등장했다. 실무적으로는 모델 선택과 프롬프트 문구 하나가 코드 리뷰 부담을 좌우한다는 구체적 근거가 된다.
관련 기사
메디인테크, 일본 독점 내시경 시장에 AI 로봇 내시경으로 도전
KERI 기술 기반 스핀오프 기업 메디인테크가 서울대병원, 서울대, DGIST와 함께 AI 기반 로봇 내시경 플랫폼 개발에 들어감. 2026년부터 2031년까지 총 228억여원이 투입되는 과제로, 일본 기업이 95% 이상 점유한 연성 전자내시경 시장을 정면으로 겨냥함.
스페이스X, 구글에 47조원 규모 AI 인프라 빌려주며 클라우드 사업자 변신 시동
스페이스X가 기업공개를 앞두고 구글과 약 47조원 규모의 AI 데이터센터 임대 계약을 맺었다. 구글은 2026년 10월부터 2029년 6월까지 매월 약 1조4000억원을 내고, 스페이스X는 엔비디아 GPU 11만 개를 포함한 연산 자원을 제공할 예정이다. 우주기업으로 알려진 스페이스X가 AI 인프라 사업 성장성을 투자자에게 보여주려는 움직임으로 읽힌다.
인터랙티브 브로커스, 자연어로 거래 지시 만드는 AI 에이전트 트레이딩 출시
인터랙티브 브로커스가 클라우드 기반 AI 에이전트 트레이딩을 내놓고, 고객이 자연어로 계좌 관리와 거래 지시 생성을 할 수 있게 했다. 핵심은 170개 이상 글로벌 시장의 실제 계좌 데이터를 바탕으로 다중 자산 거래 접근성을 낮추는 데 있다. 다만 투자 관점에서는 참여도 확대라는 기대와 AI 생성 지시에 따른 운영·규제 리스크가 같이 따라붙는다.
애플, 차세대 시리에 구글 제미나이와 엔비디아 클라우드까지 끌어온다
애플이 차세대 시리를 온디바이스 AI 중심으로 만들되, 복잡한 요청은 구글 클라우드와 엔비디아 AI 칩으로 처리하는 방안을 준비 중이라는 보도다. 핵심은 애플 특유의 프라이버시 기조를 지키면서도, 대형 AI 모델이 필요한 성능을 어떻게 확보하느냐다.
정부의 ‘모두의 AI’, 한국형 챗지피티보다 더 큰 질문은 기술 주권과 지속 운영비
정부가 2028년까지 1조 2450억 원을 투입해 대국민 무료 대화형 AI 서비스 ‘모두의 AI’를 추진한다. 독자 AI 파운데이션 모델, 독립 벤치마크, 오픈소스 생태계, 노년층 친화 UI, 3300만 명 교육이 핵심 축이다. 다만 장기 운영 비용과 실제 기술 독립성 검증이 성패를 가를 가능성이 크다.
댓글
댓글
댓글을 불러오는 중...