Simon Willison이 매년 연말에 발행하는 LLM 업계 총결산 시리즈의 세 번째 글임. 2025년은 리즈닝 모델, 코딩 에이전트, 중국 오픈 웨이트 모델 등 다양한 트렌드가 폭발적으로 성장한 해였음.
리즈닝 모델 혁명
OpenAI가 2024년 9월 o1으로 시작한 "리즈닝" 모델(RLVR, Reinforcement Learning from Verifiable Rewards) 혁명이 2025년에 본격적으로 확산됨. o3, o3-mini, o4-mini에 이어 거의 모든 주요 AI 연구소가 리즈닝 모델을 출시함.
Andrej Karpathy의 설명이 핵심을 관통함: 자동으로 검증 가능한 보상을 기반으로 LLM을 훈련시키면, 모델이 "생각하는 데 더 많은 시간을 쓸수록 더 좋은 답을 낸다"는 패턴을 학습하게 됨.
리즈닝 모델의 진정한 혁신은 도구 사용(tool use)과의 결합이었음. 추론 과정에서 외부 도구를 호출하고 그 결과를 다시 사고에 반영하는 구조가 코딩 에이전트의 핵심 동력이 됨.
Claude Code와 코딩 에이전트의 해
Simon Willison은 Claude Code를 2025년 가장 임팩트 있는 단일 사건으로 꼽았음. 2월에 조용히 출시되어 12월에 연간 매출 10억 달러(run-rate) 도달.
Willison은 2025년 초 "에이전트는 아직 안 된다"고 예측했으나, 절반은 틀렸다고 인정함. 범용 에이전트는 여전히 먼 이야기지만, 코딩 에이전트와 검색 에이전트는 확실히 돌파구를 만들었음.
CLI 기반 코딩 에이전트가 대세로 자리잡음:
- Claude Code (Anthropic) - 시장을 정의한 제품
- Codex CLI (OpenAI) - 오픈소스 대응마
- Gemini CLI (Google) - 무료 Gemini 2.5 Pro 제공
- Qwen Code, Mistral Vibe 등 후발 주자들
METR의 연구에 따르면 AI가 자율적으로 수행 가능한 작업의 시간 범위(time-horizon)가 7개월마다 2배로 증가하고 있음. 단순 코드 수정에서 수 시간 단위의 복잡한 태스크까지 영역이 확장되는 추세임.
바이브 코딩의 탄생
Andrej Karpathy가 만든 "바이브 코딩(vibe coding)"이라는 용어가 2025년 가장 상징적인 신조어가 됨. 코드를 직접 작성하지 않고 AI에게 자연어로 지시하여 프로그래밍하는 방식을 뜻함.
Willison은 바이브 코딩의 치명적 문제로 시맨틱 드리프트(semantic drift)를 지적함. AI가 생성한 코드의 의미가 원래 의도에서 점진적으로 벗어나면서 디버깅이 불가능해지는 현상임. 특히 적합성 검증 스위트(conformance suite)가 이 문제의 해결책으로 부상함 - 코드가 만족해야 할 조건을 테스트로 명세하면 AI가 그 테스트를 통과하는 코드를 반복적으로 생성할 수 있음.
YOLO 모드와 보안 우려
코딩 에이전트에 "모든 명령을 자동 승인"하는 YOLO 모드가 보편화됨. 보안 연구자 Johann Rehberger는 이를 "정상화된 일탈(Normalization of Deviance)"이라 명명함 - 챌린저호 폭발 사고와 같은 메커니즘으로, 작은 위험을 반복적으로 무시하다 대형 사고로 이어지는 패턴임.
AI 브라우저(ChatGPT Atlas 등)의 보안 문제도 심각함. Willison은 치명적 삼중주(Lethal Trifecta)라는 용어를 새로 만들었음: (1) 신뢰할 수 없는 콘텐츠 접근 + (2) 도구 사용 능력 + (3) 개인정보 접근이 결합되면 프롬프트 인젝션 공격에 완전히 노출됨.
중국 오픈 웨이트 모델의 부상
2025년 1월 DeepSeek R1이 발표되자 NVIDIA 주가가 하루 만에 5,930억 달러 증발함. "AI에 수천억 달러를 투자할 필요가 없을 수도 있다"는 공포가 시장을 뒤흔든 것임.
이후 중국 오픈 웨이트 모델이 글로벌 벤치마크를 지배함:
- GLM-4.7 (Zhipu AI)
- Kimi K2 (Moonshot AI)
- Qwen3 (Alibaba)
연말 기준 주요 오픈 웨이트 랭킹 상위 5개 모델 중 5개가 중국산이었음. Meta의 Llama는 대조적으로 방향을 잃었음 - Llama 4가 너무 크고 실용성이 떨어진다는 평가를 받음.
200달러/월 구독 시대
세 주요 업체가 모두 200달러/월 프리미엄 구독을 출시함:
- Claude Pro Max (Anthropic)
- ChatGPT Pro (OpenAI)
- Gemini AI Ultra (Google)
헤비 유저들은 20달러 구독으로는 최신 모델의 사용량 제한에 금방 도달했기 때문에 200달러 티어가 시장에서 빠르게 자리잡음.
MCP의 흥망성쇠
MCP(Model Context Protocol)가 2025년 폭발적으로 성장했지만, Willison은 이것이 "1년짜리 유행(one-year wonder)"이 될 수 있다고 경고함. Skills 패러다임이 MCP를 대체할 가능성이 있음.
MCP는 LLM이 외부 도구와 데이터 소스에 접근하는 표준 프로토콜로 큰 주목을 받았지만, 보안 모델의 부재와 복잡성이 장기적 약점으로 작용할 수 있음.
Gemini의 해, OpenAI의 위기
Google이 2025년 가장 큰 약진을 보인 업체였음. Gemini 2.0, 2.5, 3.0을 연달아 출시하며 기술적 우위를 확보함. 자체 TPU 인프라 덕분에 컴퓨팅 비용에서도 경쟁사 대비 유리한 위치를 점함.
OpenAI는 전 방위에서 도전받는 해를 보냄. 기술적으로는 Claude, Gemini에 밀리는 영역이 늘었지만, 소비자 인지도에서는 여전히 압도적임. GPT-4o의 이미지 생성 기능이 일주일 만에 1억 명의 신규 가입자를 유치하며 소비자 시장에서의 저력을 증명함.
OpenAI 내부에서는 Gemini 3에 대한 대응을 "Code Red"로 분류했다는 보도도 있었음.
적합성 검증 스위트: 코딩 에이전트의 핵심 열쇠
Willison이 2025년의 가장 중요한 기술적 발견 중 하나로 꼽은 것이 적합성 검증 스위트(conformance suite)임. AI에게 코드를 맡길 때 "이 테스트를 통과하도록 구현해라"라는 명확한 기준을 주면, 시맨틱 드리프트 없이 안정적인 결과를 얻을 수 있음.
이는 바이브 코딩의 한계를 극복하는 실용적 방법론이자, 시니어 개발자가 AI 에이전트와 협업하는 방식의 핵심 패턴이 될 것임. 테스트를 작성하는 능력 - 요구사항을 검증 가능한 명세로 변환하는 능력 - 이 AI 시대 개발자의 가장 중요한 역량으로 부상하고 있음.
Simon Willison은 2025년 한 해 동안 110개의 도구를 직접 만들었으며, 이 글 자체가 44,000자에 달하는 방대한 기록임. 전문은 원문에서 확인할 수 있음.
댓글
댓글
댓글을 불러오는 중...