지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다

ai-ml 2026-05-19 약 6분

 tags

#llm #coding-agent #reinforcement-learning #codex #claude

vote

북마크

사이먼 윌리슨은 최근 6개월간 대규모 언어 모델의 왕좌가 클로드, 지피티, 제미나이 사이에서 빠르게 바뀌었지만, 더 중요한 변화는 코딩 에이전트가 실사용 가능한 수준을 넘었다는 점이라고 짚었다. 2025년 대부분 진행된 검증 가능한 보상 기반 강화학습이 코드 생성 품질을 끌어올렸고, 개발자들이 실제 업무용 도구로 쓰기 시작했다는 흐름이다.

1
2025년 11월 전후로 최고 모델 평가는 클로드 소넷 4.5, 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스, 클로드 오퍼스 4.5 사이에서 빠르게 이동했다.
2
진짜 변화는 코딩 에이전트가 ‘가끔 된다’에서 ‘대체로 된다’ 수준으로 올라선 것이다.
3
오픈에이아이와 앤스로픽은 2025년 대부분을 검증 가능한 보상 기반 강화학습으로 코드 작성 품질을 끌어올리는 데 썼다.
4
새 모델과 에이전트가 좋아지면서 개발자들이 휴가 기간에 실험성 프로젝트를 대거 만들었고, 일부는 과열된 기대도 낳았다.

지난 6개월 대규모 언어 모델(LLM) 판세는 말 그대로 왕좌 돌려막기였음
- 11월 초 기준으로는 9월 29일 공개된 클로드 소넷 4.5가 널리 인정받는 최고 모델로 여겨졌음
- 이후 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스가 차례로 치고 올라왔고, 다시 클로드 오퍼스 4.5가 왕좌를 되찾았다는 흐름임
- 글쓴이는 이미지 생성 테스트에서는 제미나이 3이 제일 인상적이었다고 보지만, 실무자들 사이에서는 오퍼스 4.5가 이후 몇 달간 가장 강한 모델로 받아들여졌다고 봄
그런데 진짜 뉴스는 모델 순위표가 아니라 코딩 에이전트였음
- 2025년 대부분 동안 오픈에이아이와 앤스로픽은 검증 가능한 보상 기반 강화학습(RLVR)으로 코드 작성 품질을 끌어올렸음
- 특히 코덱스(Codex), 클로드 코드(Claude Code) 같은 에이전트 실행 환경과 결합했을 때 성능이 좋아지도록 밀어붙인 것임
- 11월쯤 그 결과가 확 드러났고, 코딩 에이전트는 ‘가끔 된다’에서 ‘대체로 된다’로 넘어감
- 글쓴이 표현대로라면 이제 멍청한 실수를 고치느라 대부분의 시간을 쓰지 않고도 실무 데일리 드라이버로 쓸 수 있는 선을 넘은 것임

❗중요

> 이 글의 핵심은 “어느 모델이 1등이냐”가 아님. 코딩 에이전트가 개발자의 실제 작업 루프 안으로 들어올 만큼 신뢰도가 올라갔다는 게 진짜 사건임.

연말·연초 휴가 시즌에는 많은 개발자가 새 모델과 에이전트를 붙잡고 실험을 쏟아냈음
- 12월부터 1월 사이에 사람들이 쉬는 시간을 이용해 새 코딩 에이전트로 어디까지 가능한지 밀어붙였다는 이야기임
- 글쓴이도 스스로 잠깐 과열됐다고 인정함. 야심 찬 프로젝트를 마구 띄워보며 한계를 시험했다는 것임
- 새 도구가 갑자기 좋아지면 개발자들이 “이제 이것도 되나?” 하면서 실험 프로젝트를 양산하는 그 분위기임
그 과정에서 꽤 기괴한 데모도 나옴
- 예를 들어 파이썬으로 구현한 자바스크립트 실행기를 만들고, 그 파이썬을 파이오다이드(Pyodide) 위에서 돌리고, 파이오다이드는 웹어셈블리(WebAssembly) 위에서 돌고, 결국 브라우저의 자바스크립트 안에서 실행되는 식임
- 기술적으로는 재밌지만, 글쓴이도 느리고 버그 많고 안전하지 않은 반쪽짜리 자바스크립트 구현이 실제로 필요했냐고 자조함
- 결론은 “재밌었지만 조용히 은퇴시킨 프로젝트가 꽤 많다”는 쪽임. 너무 현실적이라 웃김
2월쯤에는 오픈클로(OpenClaw)라는 프로젝트가 큰 관심을 받기 시작함
- 이름이 여러 번 바뀌다가 최종 이름으로 자리 잡았고, 만들어진 지 3개월도 안 된 프로젝트치고는 주목도가 놀라웠다고 함
- 이 시기의 분위기는 코딩 에이전트가 단순 도구를 넘어, 개발자가 계속 켜두고 실험하는 개인용 실행 환경처럼 받아들여졌다는 쪽에 가까움
- 실리콘밸리에서 맥 미니가 팔려나갔다는 일화도 나옴. 로컬에서 에이전트를 돌리려는 수요가 그만큼 있었다는 얘기임
마지막에는 AI 연구소들도 커뮤니티의 이상한 테스트를 보고 있었던 것 같다는 농담으로 끝남
- 글쓴이는 오래전부터 일부러 말도 안 되는 SVG 생성 테스트를 써서 모델 차이를 비교해왔음
- 이유는 그런 과제가 학습 데이터에 맞춤형으로 들어갔을 가능성이 낮고, 구성 요소를 제대로 이해해야 하기 때문임
- 그런데 구글의 제프 딘이 비슷한 유형의 애니메이션 영상을 올리면서, 어쩌면 연구소들도 이런 괴상한 테스트를 은근히 신경 쓰고 있었던 것 아니냐는 식으로 마무리함

기술 맥락

이 글에서 중요한 변화는 모델의 지식량이 아니라 작업 루프예요. 예전에는 모델이 코드를 그럴듯하게 써도 저장소 맥락을 읽고, 파일을 고치고, 실행 결과를 보고, 다시 수정하는 흐름이 약했거든요. 코딩 에이전트가 좋아졌다는 건 이 루프 전체가 쓸 만해졌다는 뜻이에요.
검증 가능한 보상 기반 강화학습이 코드에서 특히 효과를 낸 이유도 여기에 있어요. 코드는 테스트가 통과하는지, 빌드가 되는지, 정답 출력이 맞는지 비교적 명확하게 확인할 수 있어요. 모델 입장에서는 “좋은 답변처럼 보이는 글”보다 “실제로 통과하는 변경”을 학습하기 쉬운 영역인 셈이에요.
코덱스나 클로드 코드 같은 실행 환경은 모델을 채팅창 밖으로 꺼내는 역할을 해요. 단순히 함수 하나를 물어보는 게 아니라 저장소 전체를 읽고 여러 파일을 바꾸며 작업을 진행하게 하니까요. 그래서 같은 모델이라도 에이전트 하네스와 붙었을 때 체감 성능이 크게 달라져요.
글쓴이가 과열된 실험을 많이 만들었다고 말한 부분도 의미가 있어요. 도구가 특정 임계점을 넘으면 개발자는 실용 프로젝트뿐 아니라 말도 안 되는 조합까지 빠르게 시도해보게 돼요. 그중 상당수는 버려지지만, 그 실험량 자체가 새 개발 방식의 가능성을 보여주는 신호이기도 해요.

모델 순위표보다 중요한 건 개발자의 작업 방식이 바뀌는 임계점을 넘었느냐다. 이 글은 최근 대규모 언어 모델 경쟁을 ‘누가 1등 모델인가’가 아니라 ‘코딩 에이전트가 데일리 드라이버가 됐는가’로 다시 보게 만든다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사