본문으로 건너뛰기
피드

지난 6개월 대규모 언어 모델 판세, 진짜 변화는 코딩 에이전트였다

ai-ml 약 6분
vote
0
댓글
북마크

사이먼 윌리슨은 최근 6개월간 대규모 언어 모델의 왕좌가 클로드, 지피티, 제미나이 사이에서 빠르게 바뀌었지만, 더 중요한 변화는 코딩 에이전트가 실사용 가능한 수준을 넘었다는 점이라고 짚었다. 2025년 대부분 진행된 검증 가능한 보상 기반 강화학습이 코드 생성 품질을 끌어올렸고, 개발자들이 실제 업무용 도구로 쓰기 시작했다는 흐름이다.

  • 1

    2025년 11월 전후로 최고 모델 평가는 클로드 소넷 4.5, 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스, 클로드 오퍼스 4.5 사이에서 빠르게 이동했다.

  • 2

    진짜 변화는 코딩 에이전트가 ‘가끔 된다’에서 ‘대체로 된다’ 수준으로 올라선 것이다.

  • 3

    오픈에이아이와 앤스로픽은 2025년 대부분을 검증 가능한 보상 기반 강화학습으로 코드 작성 품질을 끌어올리는 데 썼다.

  • 4

    새 모델과 에이전트가 좋아지면서 개발자들이 휴가 기간에 실험성 프로젝트를 대거 만들었고, 일부는 과열된 기대도 낳았다.

  • 지난 6개월 대규모 언어 모델(LLM) 판세는 말 그대로 왕좌 돌려막기였음

    • 11월 초 기준으로는 9월 29일 공개된 클로드 소넷 4.5가 널리 인정받는 최고 모델로 여겨졌음
    • 이후 지피티 5.1, 제미나이 3, 지피티 5.1 코덱스 맥스가 차례로 치고 올라왔고, 다시 클로드 오퍼스 4.5가 왕좌를 되찾았다는 흐름임
    • 글쓴이는 이미지 생성 테스트에서는 제미나이 3이 제일 인상적이었다고 보지만, 실무자들 사이에서는 오퍼스 4.5가 이후 몇 달간 가장 강한 모델로 받아들여졌다고 봄
  • 그런데 진짜 뉴스는 모델 순위표가 아니라 코딩 에이전트였음

    • 2025년 대부분 동안 오픈에이아이와 앤스로픽은 검증 가능한 보상 기반 강화학습(RLVR)으로 코드 작성 품질을 끌어올렸음
    • 특히 코덱스(Codex), 클로드 코드(Claude Code) 같은 에이전트 실행 환경과 결합했을 때 성능이 좋아지도록 밀어붙인 것임
    • 11월쯤 그 결과가 확 드러났고, 코딩 에이전트는 ‘가끔 된다’에서 ‘대체로 된다’로 넘어감
    • 글쓴이 표현대로라면 이제 멍청한 실수를 고치느라 대부분의 시간을 쓰지 않고도 실무 데일리 드라이버로 쓸 수 있는 선을 넘은 것임

중요

> 이 글의 핵심은 “어느 모델이 1등이냐”가 아님. 코딩 에이전트가 개발자의 실제 작업 루프 안으로 들어올 만큼 신뢰도가 올라갔다는 게 진짜 사건임.

  • 연말·연초 휴가 시즌에는 많은 개발자가 새 모델과 에이전트를 붙잡고 실험을 쏟아냈음

    • 12월부터 1월 사이에 사람들이 쉬는 시간을 이용해 새 코딩 에이전트로 어디까지 가능한지 밀어붙였다는 이야기임
    • 글쓴이도 스스로 잠깐 과열됐다고 인정함. 야심 찬 프로젝트를 마구 띄워보며 한계를 시험했다는 것임
    • 새 도구가 갑자기 좋아지면 개발자들이 “이제 이것도 되나?” 하면서 실험 프로젝트를 양산하는 그 분위기임
  • 그 과정에서 꽤 기괴한 데모도 나옴

    • 예를 들어 파이썬으로 구현한 자바스크립트 실행기를 만들고, 그 파이썬을 파이오다이드(Pyodide) 위에서 돌리고, 파이오다이드는 웹어셈블리(WebAssembly) 위에서 돌고, 결국 브라우저의 자바스크립트 안에서 실행되는 식임
    • 기술적으로는 재밌지만, 글쓴이도 느리고 버그 많고 안전하지 않은 반쪽짜리 자바스크립트 구현이 실제로 필요했냐고 자조함
    • 결론은 “재밌었지만 조용히 은퇴시킨 프로젝트가 꽤 많다”는 쪽임. 너무 현실적이라 웃김
  • 2월쯤에는 오픈클로(OpenClaw)라는 프로젝트가 큰 관심을 받기 시작함

    • 이름이 여러 번 바뀌다가 최종 이름으로 자리 잡았고, 만들어진 지 3개월도 안 된 프로젝트치고는 주목도가 놀라웠다고 함
    • 이 시기의 분위기는 코딩 에이전트가 단순 도구를 넘어, 개발자가 계속 켜두고 실험하는 개인용 실행 환경처럼 받아들여졌다는 쪽에 가까움
    • 실리콘밸리에서 맥 미니가 팔려나갔다는 일화도 나옴. 로컬에서 에이전트를 돌리려는 수요가 그만큼 있었다는 얘기임
  • 마지막에는 AI 연구소들도 커뮤니티의 이상한 테스트를 보고 있었던 것 같다는 농담으로 끝남

    • 글쓴이는 오래전부터 일부러 말도 안 되는 SVG 생성 테스트를 써서 모델 차이를 비교해왔음
    • 이유는 그런 과제가 학습 데이터에 맞춤형으로 들어갔을 가능성이 낮고, 구성 요소를 제대로 이해해야 하기 때문임
    • 그런데 구글의 제프 딘이 비슷한 유형의 애니메이션 영상을 올리면서, 어쩌면 연구소들도 이런 괴상한 테스트를 은근히 신경 쓰고 있었던 것 아니냐는 식으로 마무리함

기술 맥락

  • 이 글에서 중요한 변화는 모델의 지식량이 아니라 작업 루프예요. 예전에는 모델이 코드를 그럴듯하게 써도 저장소 맥락을 읽고, 파일을 고치고, 실행 결과를 보고, 다시 수정하는 흐름이 약했거든요. 코딩 에이전트가 좋아졌다는 건 이 루프 전체가 쓸 만해졌다는 뜻이에요.

  • 검증 가능한 보상 기반 강화학습이 코드에서 특히 효과를 낸 이유도 여기에 있어요. 코드는 테스트가 통과하는지, 빌드가 되는지, 정답 출력이 맞는지 비교적 명확하게 확인할 수 있어요. 모델 입장에서는 “좋은 답변처럼 보이는 글”보다 “실제로 통과하는 변경”을 학습하기 쉬운 영역인 셈이에요.

  • 코덱스나 클로드 코드 같은 실행 환경은 모델을 채팅창 밖으로 꺼내는 역할을 해요. 단순히 함수 하나를 물어보는 게 아니라 저장소 전체를 읽고 여러 파일을 바꾸며 작업을 진행하게 하니까요. 그래서 같은 모델이라도 에이전트 하네스와 붙었을 때 체감 성능이 크게 달라져요.

  • 글쓴이가 과열된 실험을 많이 만들었다고 말한 부분도 의미가 있어요. 도구가 특정 임계점을 넘으면 개발자는 실용 프로젝트뿐 아니라 말도 안 되는 조합까지 빠르게 시도해보게 돼요. 그중 상당수는 버려지지만, 그 실험량 자체가 새 개발 방식의 가능성을 보여주는 신호이기도 해요.

모델 순위표보다 중요한 건 개발자의 작업 방식이 바뀌는 임계점을 넘었느냐다. 이 글은 최근 대규모 언어 모델 경쟁을 ‘누가 1등 모델인가’가 아니라 ‘코딩 에이전트가 데일리 드라이버가 됐는가’로 다시 보게 만든다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.