큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장

ai-ml 2026-06-19 약 6분

 tags

#llm #hallucination #benchmark #open-weights #reasoning

vote

북마크

대형 대규모 언어 모델(LLM)이 벤치마크 점수는 높지만, 실제로는 모르는 걸 모른다고 말하는 능력에서 크게 흔들릴 수 있다는 글이다. 글쓴이는 오픈 웨이트 모델인 GLM-5.2가 훨씬 큰 폐쇄형 모델들에 성능상 근접하면서도 환각률은 더 낮았다는 점을 근거로, 모델 선택 기준을 파라미터 수에서 정확성·불확실성 보정·효율성으로 옮겨야 한다고 주장한다.

1
GLM-5.2는 7530억 파라미터, 활성 파라미터 약 400억 규모인데 GPT-5.5와 지능 지수 차이가 4점에 그쳤다
2
AA-Omniscience 벤치마크에서 GPT-5.5 환각률은 86%, GLM-5.2는 28%로 제시됐다
3
DeepSeek V4 Pro는 약 10배 많은 추론 토큰과 3분 26초를 쓰고도 구조적으로 불가능한 파이썬 문제에 자신 있게 틀린 답을 냈다
4
글쓴이는 현대 대규모 언어 모델(LLM)의 핵심 트레이드오프를 원시 성능, 불확실성 보정, 계산 효율성의 삼각 구도로 봐야 한다고 말한다

글쓴이의 핵심 주장은 꽤 직설적임. “큰 모델이 무조건 더 좋은 모델”이라는 공식이 깨지고 있다는 것
- 최신 대형 모델들이 여전히 벤치마크 상위권을 먹고 있는 건 맞음
- 그런데 오픈 웨이트 모델인 GLM-5.2가 훨씬 큰 폐쇄형 모델과 점수 차이를 크게 좁히면서, 단순 스케일링만으로 지능이 계속 오른다는 믿음에 금이 갔다고 봄
숫자로 보면 이 주장이 왜 나왔는지 감이 옴
- GLM-5.2는 전체 7530억 파라미터, 실제 활성 파라미터는 약 400억 규모로 소개됨
- GPT-5.5와 Opus 4.8은 폐쇄형 모델이고, 보수적으로 1조~2조 파라미터급으로 추정된다고 함
- 그런데 Artificial Analysis 지능 지수에서 GLM-5.2는 GPT-5.5와 4점 차이, Fable 5와 9점 차이까지 따라붙었다는 게 글의 포인트임

❗중요

> 글쓴이가 진짜 문제 삼는 건 “점수”가 아니라 “믿을 수 있느냐”임. 벤치마크는 높아도 모르는 걸 모른다고 못 하면 개발자 입장에서는 꽤 위험한 도구가 됨.

더 흥미로운 건 환각률 비교임. 큰 모델일수록 답을 더 잘 맞히는 게 아니라, 틀린 답을 더 자신 있게 낼 수도 있다는 얘기
- AA-Omniscience 벤치마크 기준 DeepSeek V4 Pro는 환각률 94%로 제시됨
- GPT-5.5도 86%로 높게 나왔고, Fable 5는 48%, Opus 4.8은 36%, GLM-5.2는 28%였다고 함
- 이 벤치마크에서 환각률이 높다는 건, 풀 수 없는 질문에서 “모르겠다”고 말하는 대신 답을 지어낸 비율이 높다는 뜻임
글쓴이는 파이썬 질문 하나로 이 차이를 보여줌
- 문제는 단일 스레드 작업이 절대 양보하지 않고 시스템 폴링도 쓰지 않으면서 멀티플렉스 입출력(I/O)을 처리할 수 있느냐는 식의 구조적 모순을 포함함
- 쉽게 말하면 배달 기사가 트럭을 한 번도 멈추지 않고 세 집에 동시에 택배를 내려놓으라는 요구에 가까움
- GLM-5.2는 약 12초, 추론 토큰 약 800개로 “이건 기술적으로 불가능하다”는 점을 짚었다고 함
- 반면 DeepSeek V4 Pro는 거의 10배 많은 추론 토큰을 쓰고도 자신감 넘치는 오답을 만들었다고 함
여기서 중요한 건 추론 예산을 많이 준다고 항상 답이 좋아지는 게 아니라는 점임
- DeepSeek V4 Pro는 3분 26초 동안 추론 루프를 돌며 계산 자원을 쓰고도, 결국 보기 좋은 틀린 답을 냈다고 함
- 글쓴이는 이걸 “추론 토큰 많이 쓰기”, “말뭉치 더 넣기”, “파라미터 더 키우기”가 만능이 아니라는 사례로 봄
- 특히 코딩 어시스턴트에서는 틀린 답을 예쁘게 포장하는 능력이 오히려 독이 될 수 있음
글의 결론은 현대 대규모 언어 모델(LLM)을 세 가지 축으로 봐야 한다는 것
- 첫 번째는 원시 성능임. 어려운 문제를 얼마나 잘 푸는지, 벤치마크에서 얼마나 높은지에 해당함
- 두 번째는 불확실성 보정임. 모르는 문제를 만났을 때 그럴듯한 헛소리를 하지 않고 멈출 수 있는지임
- 세 번째는 계산 효율성임. 같은 답을 내기 위해 얼마나 많은 시간과 토큰, 비용을 쓰는지임
개발자 입장에서는 꽤 실용적인 경고임
- “제일 비싼 모델”, “제일 큰 모델”, “벤치마크 1위 모델”을 무지성으로 고르는 게 항상 최선은 아닐 수 있음
- 코드 생성보다 더 중요한 건 코드의 전제 조건, 불가능한 요구사항, 아키텍처 결함을 잡아내는 능력일 때가 많음
- 특히 실무에서는 모델이 틀렸을 때 얼마나 빨리 들키는지가 비용을 좌우함. 자신감 있는 오답은 리뷰 시간을 태우고, 더 나쁘면 장애로 이어짐

기술 맥락

이 글에서의 기술적 선택은 “더 큰 모델을 쓸 것인가, 더 잘 보정된 모델을 쓸 것인가”예요. 파라미터 수가 큰 모델은 어려운 문제를 풀 가능성이 높지만, 모르는 문제까지 답하려는 성향이 강하면 코딩 업무에서는 오히려 리스크가 커져요.
GLM-5.2가 흥미로운 이유는 전체 7530억 파라미터, 활성 파라미터 약 400억이라는 조건에서 GPT-5.5와 지능 지수 차이를 4점까지 좁혔기 때문이에요. 이 정도면 “닫힌 초대형 모델만이 답”이라는 판단을 다시 봐야 하거든요.
환각률은 실무 모델 선택에서 꽤 중요한 지표예요. 코드 생성 모델이 틀린 라이브러리 호출이나 불가능한 동시성 구조를 자신 있게 제안하면, 개발자는 답을 검증하는 데 더 많은 시간을 써야 해요.
추론 토큰도 마찬가지예요. DeepSeek V4 Pro 사례처럼 3분 26초 동안 많이 생각해도 틀릴 수 있다면, 긴 추론이 곧 신뢰도라는 뜻은 아니에요. 문제의 전제가 깨졌는지 빠르게 감지하는 능력이 별도 축으로 필요해요.

개발자가 모델을 고를 때 ‘제일 큰 모델’이나 ‘벤치마크 1등’만 보면 위험하다는 얘기다. 특히 코드 리뷰, 아키텍처 판단, 장애 분석처럼 틀린 답을 그럴듯하게 말하면 더 위험한 업무에서는 환각률과 모른다고 말하는 능력이 실전 성능에 가깝다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-06-20

서울 AI 허브, 커서 해커톤으로 공공데이터 기반 도시문제 해결 실험

서울 AI 허브가 Cursor 국내 공식 빌더 커뮤니티 Team Human과 함께 6월 27일 ‘Cursor Hackathon Seoul vol.3’를 연다. 참가자들은 생성형 AI와 서울시 공공데이터를 활용해 교통, 환경, 복지, 안전 같은 도시문제를 해결하는 서비스를 약 8시간 안에 구현하게 된다.

ai-ml 2026-06-20

소버린 AI, 이제 ‘국산’보다 ‘통제권’ 기준을 따질 때

한국의 독자 AI 파운데이션 모델 프로젝트를 둘러싼 논쟁이 ‘외산 기술을 썼느냐’에 갇히면서 정작 중요한 기준 논의가 밀렸다는 지적이 나왔다. 전문가들은 소버린 AI의 핵심을 원산지 증명이 아니라 모델 가중치, 학습 과정, 데이터, 라이선스, 배포·운영 통제권을 국내 주체가 실제로 갖고 있는지로 봐야 한다고 말한다.

ai-ml 2026-06-20

중국, AI를 가정과 상점에 밀어 넣는 ‘AI 플러스 소비’ 프로젝트 가동

중국 정부가 내수 침체를 돌파하기 위해 ‘AI 플러스 소비’ 활성화 계획을 내놨다. 휴머노이드, 실버 케어 로봇, 드론 배송, 스마트 홈, AI 체험 센터, 이자 보조금까지 묶어 AI 제품을 일상 소비재로 밀어붙이겠다는 전략이다.

ai-ml 2026-06-20

AI 데이터센터 짓느라 빚내는 빅테크, 이제 금리도 신경 써야 함

아마존, 알파벳, 마이크로소프트, 메타 같은 하이퍼스케일러들이 AI 인프라에 올해 약 7천500억 달러를 쏟아부을 전망이다. 투자 규모가 너무 커지면서 잉여현금흐름만으로는 부족해졌고, 빅테크도 채권 발행과 금리 변화에 민감한 기업이 되고 있다.

ai-ml 2026-06-20

알파폴드 노벨상 주역 존 점퍼, 구글 딥마인드 떠나 앤트로픽 합류

알파폴드 개발로 2024년 노벨 화학상을 받은 존 점퍼 구글 딥마인드 부사장이 앤트로픽으로 이직한다. 제미나이 공동 개발자 노엄 샤지어의 오픈AI 이직에 이어 구글 핵심 AI 인재 유출이 이어지는 모양새다.

큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사