2025년 LLM 총결산: Simon Willison이 정리한 올해의 AI 트렌드

ai-ml 2025-12-31 약 8분

 tags

#llm #claude-code #reasoning #open-source #vibe-coding

vote

북마크

Simon Willison의 연례 LLM 리뷰. 리즈닝 모델 혁명, Claude Code의 10억 달러 매출, 중국 오픈 웨이트 모델의 부상, 바이브 코딩의 탄생, MCP의 흥망성쇠 등 2025년 AI 업계의 모든 것을 다룸.

1
리즈닝 모델이 도구 사용과 결합되면서 코딩 에이전트 시대 개막
2
Claude Code가 2월 조용히 출시되어 연말 10억 달러 매출 달성
3
중국 오픈 웨이트 모델이 글로벌 랭킹 상위 5개 중 5개 차지
4
200달러/월 구독이 새로운 가격 기준점으로 자리잡음
5
MCP가 폭발적으로 성장했지만 Skills에 밀릴 수 있음

Simon Willison이 매년 연말에 발행하는 LLM 업계 총결산 시리즈의 세 번째 글임. 2025년은 리즈닝 모델, 코딩 에이전트, 중국 오픈 웨이트 모델 등 다양한 트렌드가 폭발적으로 성장한 해였음.

리즈닝 모델 혁명

OpenAI가 2024년 9월 o1으로 시작한 "리즈닝" 모델(RLVR, Reinforcement Learning from Verifiable Rewards) 혁명이 2025년에 본격적으로 확산됨. o3, o3-mini, o4-mini에 이어 거의 모든 주요 AI 연구소가 리즈닝 모델을 출시함.

Andrej Karpathy의 설명이 핵심을 관통함: 자동으로 검증 가능한 보상을 기반으로 LLM을 훈련시키면, 모델이 "생각하는 데 더 많은 시간을 쓸수록 더 좋은 답을 낸다"는 패턴을 학습하게 됨.

리즈닝 모델의 진정한 혁신은 도구 사용(tool use)과의 결합이었음. 추론 과정에서 외부 도구를 호출하고 그 결과를 다시 사고에 반영하는 구조가 코딩 에이전트의 핵심 동력이 됨.

Claude Code와 코딩 에이전트의 해

Simon Willison은 Claude Code를 2025년 가장 임팩트 있는 단일 사건으로 꼽았음. 2월에 조용히 출시되어 12월에 연간 매출 10억 달러(run-rate) 도달.

Willison은 2025년 초 "에이전트는 아직 안 된다"고 예측했으나, 절반은 틀렸다고 인정함. 범용 에이전트는 여전히 먼 이야기지만, 코딩 에이전트와 검색 에이전트는 확실히 돌파구를 만들었음.

CLI 기반 코딩 에이전트가 대세로 자리잡음:

Claude Code (Anthropic) - 시장을 정의한 제품
Codex CLI (OpenAI) - 오픈소스 대응마
Gemini CLI (Google) - 무료 Gemini 2.5 Pro 제공
Qwen Code, Mistral Vibe 등 후발 주자들

METR의 연구에 따르면 AI가 자율적으로 수행 가능한 작업의 시간 범위(time-horizon)가 7개월마다 2배로 증가하고 있음. 단순 코드 수정에서 수 시간 단위의 복잡한 태스크까지 영역이 확장되는 추세임.

바이브 코딩의 탄생

Andrej Karpathy가 만든 "바이브 코딩(vibe coding)"이라는 용어가 2025년 가장 상징적인 신조어가 됨. 코드를 직접 작성하지 않고 AI에게 자연어로 지시하여 프로그래밍하는 방식을 뜻함.

Willison은 바이브 코딩의 치명적 문제로 시맨틱 드리프트(semantic drift)를 지적함. AI가 생성한 코드의 의미가 원래 의도에서 점진적으로 벗어나면서 디버깅이 불가능해지는 현상임. 특히 적합성 검증 스위트(conformance suite)가 이 문제의 해결책으로 부상함 - 코드가 만족해야 할 조건을 테스트로 명세하면 AI가 그 테스트를 통과하는 코드를 반복적으로 생성할 수 있음.

YOLO 모드와 보안 우려

코딩 에이전트에 "모든 명령을 자동 승인"하는 YOLO 모드가 보편화됨. 보안 연구자 Johann Rehberger는 이를 "정상화된 일탈(Normalization of Deviance)"이라 명명함 - 챌린저호 폭발 사고와 같은 메커니즘으로, 작은 위험을 반복적으로 무시하다 대형 사고로 이어지는 패턴임.

AI 브라우저(ChatGPT Atlas 등)의 보안 문제도 심각함. Willison은 치명적 삼중주(Lethal Trifecta)라는 용어를 새로 만들었음: (1) 신뢰할 수 없는 콘텐츠 접근 + (2) 도구 사용 능력 + (3) 개인정보 접근이 결합되면 프롬프트 인젝션 공격에 완전히 노출됨.

중국 오픈 웨이트 모델의 부상

2025년 1월 DeepSeek R1이 발표되자 NVIDIA 주가가 하루 만에 5,930억 달러 증발함. "AI에 수천억 달러를 투자할 필요가 없을 수도 있다"는 공포가 시장을 뒤흔든 것임.

이후 중국 오픈 웨이트 모델이 글로벌 벤치마크를 지배함:

GLM-4.7 (Zhipu AI)
Kimi K2 (Moonshot AI)
Qwen3 (Alibaba)

연말 기준 주요 오픈 웨이트 랭킹 상위 5개 모델 중 5개가 중국산이었음. Meta의 Llama는 대조적으로 방향을 잃었음 - Llama 4가 너무 크고 실용성이 떨어진다는 평가를 받음.

200달러/월 구독 시대

세 주요 업체가 모두 200달러/월 프리미엄 구독을 출시함:

Claude Pro Max (Anthropic)
ChatGPT Pro (OpenAI)
Gemini AI Ultra (Google)

헤비 유저들은 20달러 구독으로는 최신 모델의 사용량 제한에 금방 도달했기 때문에 200달러 티어가 시장에서 빠르게 자리잡음.

MCP의 흥망성쇠

MCP(Model Context Protocol)가 2025년 폭발적으로 성장했지만, Willison은 이것이 "1년짜리 유행(one-year wonder)"이 될 수 있다고 경고함. Skills 패러다임이 MCP를 대체할 가능성이 있음.

MCP는 LLM이 외부 도구와 데이터 소스에 접근하는 표준 프로토콜로 큰 주목을 받았지만, 보안 모델의 부재와 복잡성이 장기적 약점으로 작용할 수 있음.

Gemini의 해, OpenAI의 위기

Google이 2025년 가장 큰 약진을 보인 업체였음. Gemini 2.0, 2.5, 3.0을 연달아 출시하며 기술적 우위를 확보함. 자체 TPU 인프라 덕분에 컴퓨팅 비용에서도 경쟁사 대비 유리한 위치를 점함.

OpenAI는 전 방위에서 도전받는 해를 보냄. 기술적으로는 Claude, Gemini에 밀리는 영역이 늘었지만, 소비자 인지도에서는 여전히 압도적임. GPT-4o의 이미지 생성 기능이 일주일 만에 1억 명의 신규 가입자를 유치하며 소비자 시장에서의 저력을 증명함.

OpenAI 내부에서는 Gemini 3에 대한 대응을 "Code Red"로 분류했다는 보도도 있었음.

적합성 검증 스위트: 코딩 에이전트의 핵심 열쇠

Willison이 2025년의 가장 중요한 기술적 발견 중 하나로 꼽은 것이 적합성 검증 스위트(conformance suite)임. AI에게 코드를 맡길 때 "이 테스트를 통과하도록 구현해라"라는 명확한 기준을 주면, 시맨틱 드리프트 없이 안정적인 결과를 얻을 수 있음.

이는 바이브 코딩의 한계를 극복하는 실용적 방법론이자, 시니어 개발자가 AI 에이전트와 협업하는 방식의 핵심 패턴이 될 것임. 테스트를 작성하는 능력 - 요구사항을 검증 가능한 명세로 변환하는 능력 - 이 AI 시대 개발자의 가장 중요한 역량으로 부상하고 있음.

Simon Willison은 2025년 한 해 동안 110개의 도구를 직접 만들었으며, 이 글 자체가 44,000자에 달하는 방대한 기록임. 전문은 원문에서 확인할 수 있음.

LLM 업계의 살아있는 역사서. 매년 발행되는 이 리뷰만 읽어도 1년간 놓친 트렌드를 한 번에 따라잡을 수 있음.

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

2025년 LLM 총결산: Simon Willison이 정리한 올해의 AI 트렌드

요약

핵심 포인트

분석

리즈닝 모델 혁명

Claude Code와 코딩 에이전트의 해

바이브 코딩의 탄생

YOLO 모드와 보안 우려

중국 오픈 웨이트 모델의 부상

200달러/월 구독 시대

MCP의 흥망성쇠

Gemini의 해, OpenAI의 위기

적합성 검증 스위트: 코딩 에이전트의 핵심 열쇠

인사이트

댓글

댓글

2025년 LLM 총결산: Simon Willison이 정리한 올해의 AI 트렌드

요약

핵심 포인트

분석

리즈닝 모델 혁명

Claude Code와 코딩 에이전트의 해

바이브 코딩의 탄생

YOLO 모드와 보안 우려

중국 오픈 웨이트 모델의 부상

200달러/월 구독 시대

MCP의 흥망성쇠

Gemini의 해, OpenAI의 위기

적합성 검증 스위트: 코딩 에이전트의 핵심 열쇠

인사이트

댓글

댓글

관련 기사