---
title: "2025년 LLM 총결산: Simon Willison이 정리한 올해의 AI 트렌드"
published: 2025-12-31T23:54:46.000Z
canonical: https://jeff.news/article/764
---
# 2025년 LLM 총결산: Simon Willison이 정리한 올해의 AI 트렌드

Simon Willison의 연례 LLM 리뷰. 리즈닝 모델 혁명, Claude Code의 10억 달러 매출, 중국 오픈 웨이트 모델의 부상, 바이브 코딩의 탄생, MCP의 흥망성쇠 등 2025년 AI 업계의 모든 것을 다룸.

Simon Willison이 매년 연말에 발행하는 LLM 업계 총결산 시리즈의 세 번째 글임. 2025년은 리즈닝 모델, 코딩 에이전트, 중국 오픈 웨이트 모델 등 다양한 트렌드가 폭발적으로 성장한 해였음.

## 리즈닝 모델 혁명

OpenAI가 2024년 9월 o1으로 시작한 "리즈닝" 모델(RLVR, Reinforcement Learning from Verifiable Rewards) 혁명이 2025년에 본격적으로 확산됨. o3, o3-mini, o4-mini에 이어 거의 모든 주요 AI 연구소가 리즈닝 모델을 출시함.

Andrej Karpathy의 설명이 핵심을 관통함: 자동으로 검증 가능한 보상을 기반으로 LLM을 훈련시키면, 모델이 "생각하는 데 더 많은 시간을 쓸수록 더 좋은 답을 낸다"는 패턴을 학습하게 됨.

리즈닝 모델의 진정한 혁신은 도구 사용(tool use)과의 결합이었음. 추론 과정에서 외부 도구를 호출하고 그 결과를 다시 사고에 반영하는 구조가 코딩 에이전트의 핵심 동력이 됨.

## Claude Code와 코딩 에이전트의 해

> **Simon Willison은 Claude Code를 2025년 가장 임팩트 있는 단일 사건으로 꼽았음.** 2월에 조용히 출시되어 12월에 연간 매출 10억 달러(run-rate) 도달.

Willison은 2025년 초 "에이전트는 아직 안 된다"고 예측했으나, 절반은 틀렸다고 인정함. 범용 에이전트는 여전히 먼 이야기지만, 코딩 에이전트와 검색 에이전트는 확실히 돌파구를 만들었음.

CLI 기반 코딩 에이전트가 대세로 자리잡음:
- **Claude Code** (Anthropic) - 시장을 정의한 제품
- **Codex CLI** (OpenAI) - 오픈소스 대응마
- **Gemini CLI** (Google) - 무료 Gemini 2.5 Pro 제공
- **Qwen Code**, **Mistral Vibe** 등 후발 주자들

METR의 연구에 따르면 AI가 자율적으로 수행 가능한 작업의 시간 범위(time-horizon)가 7개월마다 2배로 증가하고 있음. 단순 코드 수정에서 수 시간 단위의 복잡한 태스크까지 영역이 확장되는 추세임.

## 바이브 코딩의 탄생

Andrej Karpathy가 만든 "바이브 코딩(vibe coding)"이라는 용어가 2025년 가장 상징적인 신조어가 됨. 코드를 직접 작성하지 않고 AI에게 자연어로 지시하여 프로그래밍하는 방식을 뜻함.

Willison은 바이브 코딩의 치명적 문제로 **시맨틱 드리프트(semantic drift)**를 지적함. AI가 생성한 코드의 의미가 원래 의도에서 점진적으로 벗어나면서 디버깅이 불가능해지는 현상임. 특히 **적합성 검증 스위트(conformance suite)**가 이 문제의 해결책으로 부상함 - 코드가 만족해야 할 조건을 테스트로 명세하면 AI가 그 테스트를 통과하는 코드를 반복적으로 생성할 수 있음.

## YOLO 모드와 보안 우려

코딩 에이전트에 "모든 명령을 자동 승인"하는 YOLO 모드가 보편화됨. 보안 연구자 Johann Rehberger는 이를 **"정상화된 일탈(Normalization of Deviance)"**이라 명명함 - 챌린저호 폭발 사고와 같은 메커니즘으로, 작은 위험을 반복적으로 무시하다 대형 사고로 이어지는 패턴임.

AI 브라우저(ChatGPT Atlas 등)의 보안 문제도 심각함. Willison은 **치명적 삼중주(Lethal Trifecta)**라는 용어를 새로 만들었음: (1) 신뢰할 수 없는 콘텐츠 접근 + (2) 도구 사용 능력 + (3) 개인정보 접근이 결합되면 프롬프트 인젝션 공격에 완전히 노출됨.

## 중국 오픈 웨이트 모델의 부상

2025년 1월 DeepSeek R1이 발표되자 NVIDIA 주가가 하루 만에 **5,930억 달러** 증발함. "AI에 수천억 달러를 투자할 필요가 없을 수도 있다"는 공포가 시장을 뒤흔든 것임.

이후 중국 오픈 웨이트 모델이 글로벌 벤치마크를 지배함:
- **GLM-4.7** (Zhipu AI)
- **Kimi K2** (Moonshot AI)
- **Qwen3** (Alibaba)

연말 기준 주요 오픈 웨이트 랭킹 상위 5개 모델 중 5개가 중국산이었음. Meta의 Llama는 대조적으로 방향을 잃었음 - Llama 4가 너무 크고 실용성이 떨어진다는 평가를 받음.

## 200달러/월 구독 시대

세 주요 업체가 모두 200달러/월 프리미엄 구독을 출시함:
- **Claude Pro Max** (Anthropic)
- **ChatGPT Pro** (OpenAI)
- **Gemini AI Ultra** (Google)

헤비 유저들은 20달러 구독으로는 최신 모델의 사용량 제한에 금방 도달했기 때문에 200달러 티어가 시장에서 빠르게 자리잡음.

## MCP의 흥망성쇠

> MCP(Model Context Protocol)가 2025년 폭발적으로 성장했지만, Willison은 이것이 **"1년짜리 유행(one-year wonder)"**이 될 수 있다고 경고함. Skills 패러다임이 MCP를 대체할 가능성이 있음.

MCP는 LLM이 외부 도구와 데이터 소스에 접근하는 표준 프로토콜로 큰 주목을 받았지만, 보안 모델의 부재와 복잡성이 장기적 약점으로 작용할 수 있음.

## Gemini의 해, OpenAI의 위기

Google이 2025년 가장 큰 약진을 보인 업체였음. Gemini 2.0, 2.5, 3.0을 연달아 출시하며 기술적 우위를 확보함. 자체 TPU 인프라 덕분에 컴퓨팅 비용에서도 경쟁사 대비 유리한 위치를 점함.

OpenAI는 전 방위에서 도전받는 해를 보냄. 기술적으로는 Claude, Gemini에 밀리는 영역이 늘었지만, 소비자 인지도에서는 여전히 압도적임. GPT-4o의 이미지 생성 기능이 일주일 만에 **1억 명**의 신규 가입자를 유치하며 소비자 시장에서의 저력을 증명함.

OpenAI 내부에서는 Gemini 3에 대한 대응을 "Code Red"로 분류했다는 보도도 있었음.

## 적합성 검증 스위트: 코딩 에이전트의 핵심 열쇠

Willison이 2025년의 가장 중요한 기술적 발견 중 하나로 꼽은 것이 **적합성 검증 스위트(conformance suite)**임. AI에게 코드를 맡길 때 "이 테스트를 통과하도록 구현해라"라는 명확한 기준을 주면, 시맨틱 드리프트 없이 안정적인 결과를 얻을 수 있음.

이는 바이브 코딩의 한계를 극복하는 실용적 방법론이자, 시니어 개발자가 AI 에이전트와 협업하는 방식의 핵심 패턴이 될 것임. 테스트를 작성하는 능력 - 요구사항을 검증 가능한 명세로 변환하는 능력 - 이 AI 시대 개발자의 가장 중요한 역량으로 부상하고 있음.

---

*Simon Willison은 2025년 한 해 동안 110개의 도구를 직접 만들었으며, 이 글 자체가 44,000자에 달하는 방대한 기록임. 전문은 [원문](https://simonwillison.net/2025/Dec/31/the-year-in-llms/)에서 확인할 수 있음.*

## 핵심 포인트

- 리즈닝 모델이 도구 사용과 결합되면서 코딩 에이전트 시대 개막
- Claude Code가 2월 조용히 출시되어 연말 10억 달러 매출 달성
- 중국 오픈 웨이트 모델이 글로벌 랭킹 상위 5개 중 5개 차지
- 200달러/월 구독이 새로운 가격 기준점으로 자리잡음
- MCP가 폭발적으로 성장했지만 Skills에 밀릴 수 있음

## 인사이트

LLM 업계의 살아있는 역사서. 매년 발행되는 이 리뷰만 읽어도 1년간 놓친 트렌드를 한 번에 따라잡을 수 있음.
