---
title: "큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장"
published: 2026-06-19T16:11:25.000Z
canonical: https://jeff.news/article/4141
---
# 큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장

대형 대규모 언어 모델(LLM)이 벤치마크 점수는 높지만, 실제로는 모르는 걸 모른다고 말하는 능력에서 크게 흔들릴 수 있다는 글이다. 글쓴이는 오픈 웨이트 모델인 GLM-5.2가 훨씬 큰 폐쇄형 모델들에 성능상 근접하면서도 환각률은 더 낮았다는 점을 근거로, 모델 선택 기준을 파라미터 수에서 정확성·불확실성 보정·효율성으로 옮겨야 한다고 주장한다.

- 글쓴이의 핵심 주장은 꽤 직설적임. “큰 모델이 무조건 더 좋은 모델”이라는 공식이 깨지고 있다는 것
  - 최신 대형 모델들이 여전히 벤치마크 상위권을 먹고 있는 건 맞음
  - 그런데 오픈 웨이트 모델인 GLM-5.2가 훨씬 큰 폐쇄형 모델과 점수 차이를 크게 좁히면서, 단순 스케일링만으로 지능이 계속 오른다는 믿음에 금이 갔다고 봄

- 숫자로 보면 이 주장이 왜 나왔는지 감이 옴
  - GLM-5.2는 전체 7530억 파라미터, 실제 활성 파라미터는 약 400억 규모로 소개됨
  - GPT-5.5와 Opus 4.8은 폐쇄형 모델이고, 보수적으로 1조~2조 파라미터급으로 추정된다고 함
  - 그런데 Artificial Analysis 지능 지수에서 GLM-5.2는 GPT-5.5와 4점 차이, Fable 5와 9점 차이까지 따라붙었다는 게 글의 포인트임

> [!IMPORTANT]
> 글쓴이가 진짜 문제 삼는 건 “점수”가 아니라 “믿을 수 있느냐”임. 벤치마크는 높아도 모르는 걸 모른다고 못 하면 개발자 입장에서는 꽤 위험한 도구가 됨.

- 더 흥미로운 건 환각률 비교임. 큰 모델일수록 답을 더 잘 맞히는 게 아니라, 틀린 답을 더 자신 있게 낼 수도 있다는 얘기
  - AA-Omniscience 벤치마크 기준 DeepSeek V4 Pro는 환각률 94%로 제시됨
  - GPT-5.5도 86%로 높게 나왔고, Fable 5는 48%, Opus 4.8은 36%, GLM-5.2는 28%였다고 함
  - 이 벤치마크에서 환각률이 높다는 건, 풀 수 없는 질문에서 “모르겠다”고 말하는 대신 답을 지어낸 비율이 높다는 뜻임

- 글쓴이는 파이썬 질문 하나로 이 차이를 보여줌
  - 문제는 단일 스레드 작업이 절대 양보하지 않고 시스템 폴링도 쓰지 않으면서 멀티플렉스 입출력(I/O)을 처리할 수 있느냐는 식의 구조적 모순을 포함함
  - 쉽게 말하면 배달 기사가 트럭을 한 번도 멈추지 않고 세 집에 동시에 택배를 내려놓으라는 요구에 가까움
  - GLM-5.2는 약 12초, 추론 토큰 약 800개로 “이건 기술적으로 불가능하다”는 점을 짚었다고 함
  - 반면 DeepSeek V4 Pro는 거의 10배 많은 추론 토큰을 쓰고도 자신감 넘치는 오답을 만들었다고 함

- 여기서 중요한 건 추론 예산을 많이 준다고 항상 답이 좋아지는 게 아니라는 점임
  - DeepSeek V4 Pro는 3분 26초 동안 추론 루프를 돌며 계산 자원을 쓰고도, 결국 보기 좋은 틀린 답을 냈다고 함
  - 글쓴이는 이걸 “추론 토큰 많이 쓰기”, “말뭉치 더 넣기”, “파라미터 더 키우기”가 만능이 아니라는 사례로 봄
  - 특히 코딩 어시스턴트에서는 틀린 답을 예쁘게 포장하는 능력이 오히려 독이 될 수 있음

- 글의 결론은 현대 대규모 언어 모델(LLM)을 세 가지 축으로 봐야 한다는 것
  - 첫 번째는 원시 성능임. 어려운 문제를 얼마나 잘 푸는지, 벤치마크에서 얼마나 높은지에 해당함
  - 두 번째는 불확실성 보정임. 모르는 문제를 만났을 때 그럴듯한 헛소리를 하지 않고 멈출 수 있는지임
  - 세 번째는 계산 효율성임. 같은 답을 내기 위해 얼마나 많은 시간과 토큰, 비용을 쓰는지임

- 개발자 입장에서는 꽤 실용적인 경고임
  - “제일 비싼 모델”, “제일 큰 모델”, “벤치마크 1위 모델”을 무지성으로 고르는 게 항상 최선은 아닐 수 있음
  - 코드 생성보다 더 중요한 건 코드의 전제 조건, 불가능한 요구사항, 아키텍처 결함을 잡아내는 능력일 때가 많음
  - 특히 실무에서는 모델이 틀렸을 때 얼마나 빨리 들키는지가 비용을 좌우함. 자신감 있는 오답은 리뷰 시간을 태우고, 더 나쁘면 장애로 이어짐

---

## 기술 맥락

- 이 글에서의 기술적 선택은 “더 큰 모델을 쓸 것인가, 더 잘 보정된 모델을 쓸 것인가”예요. 파라미터 수가 큰 모델은 어려운 문제를 풀 가능성이 높지만, 모르는 문제까지 답하려는 성향이 강하면 코딩 업무에서는 오히려 리스크가 커져요.

- GLM-5.2가 흥미로운 이유는 전체 7530억 파라미터, 활성 파라미터 약 400억이라는 조건에서 GPT-5.5와 지능 지수 차이를 4점까지 좁혔기 때문이에요. 이 정도면 “닫힌 초대형 모델만이 답”이라는 판단을 다시 봐야 하거든요.

- 환각률은 실무 모델 선택에서 꽤 중요한 지표예요. 코드 생성 모델이 틀린 라이브러리 호출이나 불가능한 동시성 구조를 자신 있게 제안하면, 개발자는 답을 검증하는 데 더 많은 시간을 써야 해요.

- 추론 토큰도 마찬가지예요. DeepSeek V4 Pro 사례처럼 3분 26초 동안 많이 생각해도 틀릴 수 있다면, 긴 추론이 곧 신뢰도라는 뜻은 아니에요. 문제의 전제가 깨졌는지 빠르게 감지하는 능력이 별도 축으로 필요해요.

## 핵심 포인트

- GLM-5.2는 7530억 파라미터, 활성 파라미터 약 400억 규모인데 GPT-5.5와 지능 지수 차이가 4점에 그쳤다
- AA-Omniscience 벤치마크에서 GPT-5.5 환각률은 86%, GLM-5.2는 28%로 제시됐다
- DeepSeek V4 Pro는 약 10배 많은 추론 토큰과 3분 26초를 쓰고도 구조적으로 불가능한 파이썬 문제에 자신 있게 틀린 답을 냈다
- 글쓴이는 현대 대규모 언어 모델(LLM)의 핵심 트레이드오프를 원시 성능, 불확실성 보정, 계산 효율성의 삼각 구도로 봐야 한다고 말한다

## 인사이트

개발자가 모델을 고를 때 ‘제일 큰 모델’이나 ‘벤치마크 1등’만 보면 위험하다는 얘기다. 특히 코드 리뷰, 아키텍처 판단, 장애 분석처럼 틀린 답을 그럴듯하게 말하면 더 위험한 업무에서는 환각률과 모른다고 말하는 능력이 실전 성능에 가깝다.
