---
title: "지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다"
published: 2026-05-19T01:30:42.000Z
canonical: https://jeff.news/article/3033
---
# 지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다

사이먼 윌리슨은 최근 6개월간 대규모 언어 모델의 왕좌가 클로드, 지피티, 제미나이 사이에서 빠르게 바뀌었지만, 더 중요한 변화는 코딩 에이전트가 실사용 가능한 수준을 넘었다는 점이라고 짚었다. 2025년 대부분 진행된 검증 가능한 보상 기반 강화학습이 코드 생성 품질을 끌어올렸고, 개발자들이 실제 업무용 도구로 쓰기 시작했다는 흐름이다.

- 지난 6개월 대규모 언어 모델(LLM) 판세는 말 그대로 왕좌 돌려막기였음
  - 11월 초 기준으로는 9월 29일 공개된 클로드 소넷 4.5가 널리 인정받는 최고 모델로 여겨졌음
  - 이후 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스가 차례로 치고 올라왔고, 다시 클로드 오퍼스 4.5가 왕좌를 되찾았다는 흐름임
  - 글쓴이는 이미지 생성 테스트에서는 제미나이 3이 제일 인상적이었다고 보지만, 실무자들 사이에서는 오퍼스 4.5가 이후 몇 달간 가장 강한 모델로 받아들여졌다고 봄

- 그런데 진짜 뉴스는 모델 순위표가 아니라 코딩 에이전트였음
  - 2025년 대부분 동안 오픈에이아이와 앤스로픽은 검증 가능한 보상 기반 강화학습(RLVR)으로 코드 작성 품질을 끌어올렸음
  - 특히 코덱스(Codex), 클로드 코드(Claude Code) 같은 에이전트 실행 환경과 결합했을 때 성능이 좋아지도록 밀어붙인 것임
  - 11월쯤 그 결과가 확 드러났고, 코딩 에이전트는 ‘가끔 된다’에서 ‘대체로 된다’로 넘어감
  - 글쓴이 표현대로라면 이제 멍청한 실수를 고치느라 대부분의 시간을 쓰지 않고도 실무 데일리 드라이버로 쓸 수 있는 선을 넘은 것임

> [!IMPORTANT]
> 이 글의 핵심은 “어느 모델이 1등이냐”가 아님. 코딩 에이전트가 개발자의 실제 작업 루프 안으로 들어올 만큼 신뢰도가 올라갔다는 게 진짜 사건임.

- 연말·연초 휴가 시즌에는 많은 개발자가 새 모델과 에이전트를 붙잡고 실험을 쏟아냈음
  - 12월부터 1월 사이에 사람들이 쉬는 시간을 이용해 새 코딩 에이전트로 어디까지 가능한지 밀어붙였다는 이야기임
  - 글쓴이도 스스로 잠깐 과열됐다고 인정함. 야심 찬 프로젝트를 마구 띄워보며 한계를 시험했다는 것임
  - 새 도구가 갑자기 좋아지면 개발자들이 “이제 이것도 되나?” 하면서 실험 프로젝트를 양산하는 그 분위기임

- 그 과정에서 꽤 기괴한 데모도 나옴
  - 예를 들어 파이썬으로 구현한 자바스크립트 실행기를 만들고, 그 파이썬을 파이오다이드(Pyodide) 위에서 돌리고, 파이오다이드는 웹어셈블리(WebAssembly) 위에서 돌고, 결국 브라우저의 자바스크립트 안에서 실행되는 식임
  - 기술적으로는 재밌지만, 글쓴이도 느리고 버그 많고 안전하지 않은 반쪽짜리 자바스크립트 구현이 실제로 필요했냐고 자조함
  - 결론은 “재밌었지만 조용히 은퇴시킨 프로젝트가 꽤 많다”는 쪽임. 너무 현실적이라 웃김

- 2월쯤에는 오픈클로(OpenClaw)라는 프로젝트가 큰 관심을 받기 시작함
  - 이름이 여러 번 바뀌다가 최종 이름으로 자리 잡았고, 만들어진 지 3개월도 안 된 프로젝트치고는 주목도가 놀라웠다고 함
  - 이 시기의 분위기는 코딩 에이전트가 단순 도구를 넘어, 개발자가 계속 켜두고 실험하는 개인용 실행 환경처럼 받아들여졌다는 쪽에 가까움
  - 실리콘밸리에서 맥 미니가 팔려나갔다는 일화도 나옴. 로컬에서 에이전트를 돌리려는 수요가 그만큼 있었다는 얘기임

- 마지막에는 AI 연구소들도 커뮤니티의 이상한 테스트를 보고 있었던 것 같다는 농담으로 끝남
  - 글쓴이는 오래전부터 일부러 말도 안 되는 SVG 생성 테스트를 써서 모델 차이를 비교해왔음
  - 이유는 그런 과제가 학습 데이터에 맞춤형으로 들어갔을 가능성이 낮고, 구성 요소를 제대로 이해해야 하기 때문임
  - 그런데 구글의 제프 딘이 비슷한 유형의 애니메이션 영상을 올리면서, 어쩌면 연구소들도 이런 괴상한 테스트를 은근히 신경 쓰고 있었던 것 아니냐는 식으로 마무리함

---

## 기술 맥락

- 이 글에서 중요한 변화는 모델의 지식량이 아니라 작업 루프예요. 예전에는 모델이 코드를 그럴듯하게 써도 저장소 맥락을 읽고, 파일을 고치고, 실행 결과를 보고, 다시 수정하는 흐름이 약했거든요. 코딩 에이전트가 좋아졌다는 건 이 루프 전체가 쓸 만해졌다는 뜻이에요.

- 검증 가능한 보상 기반 강화학습이 코드에서 특히 효과를 낸 이유도 여기에 있어요. 코드는 테스트가 통과하는지, 빌드가 되는지, 정답 출력이 맞는지 비교적 명확하게 확인할 수 있어요. 모델 입장에서는 “좋은 답변처럼 보이는 글”보다 “실제로 통과하는 변경”을 학습하기 쉬운 영역인 셈이에요.

- 코덱스나 클로드 코드 같은 실행 환경은 모델을 채팅창 밖으로 꺼내는 역할을 해요. 단순히 함수 하나를 물어보는 게 아니라 저장소 전체를 읽고 여러 파일을 바꾸며 작업을 진행하게 하니까요. 그래서 같은 모델이라도 에이전트 하네스와 붙었을 때 체감 성능이 크게 달라져요.

- 글쓴이가 과열된 실험을 많이 만들었다고 말한 부분도 의미가 있어요. 도구가 특정 임계점을 넘으면 개발자는 실용 프로젝트뿐 아니라 말도 안 되는 조합까지 빠르게 시도해보게 돼요. 그중 상당수는 버려지지만, 그 실험량 자체가 새 개발 방식의 가능성을 보여주는 신호이기도 해요.

## 핵심 포인트

- 2025년 11월 전후로 최고 모델 평가는 클로드 소넷 4.5, 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스, 클로드 오퍼스 4.5 사이에서 빠르게 이동했다.
- 진짜 변화는 코딩 에이전트가 ‘가끔 된다’에서 ‘대체로 된다’ 수준으로 올라선 것이다.
- 오픈에이아이와 앤스로픽은 2025년 대부분을 검증 가능한 보상 기반 강화학습으로 코드 작성 품질을 끌어올리는 데 썼다.
- 새 모델과 에이전트가 좋아지면서 개발자들이 휴가 기간에 실험성 프로젝트를 대거 만들었고, 일부는 과열된 기대도 낳았다.

## 인사이트

모델 순위표보다 중요한 건 개발자의 작업 방식이 바뀌는 임계점을 넘었느냐다. 이 글은 최근 대규모 언어 모델 경쟁을 ‘누가 1등 모델인가’가 아니라 ‘코딩 에이전트가 데일리 드라이버가 됐는가’로 다시 보게 만든다.
