큰 모델이 답은 아니다: GPT-5.5가 GLM-5.2보다 환각을 3배 더 냈다는 주장
대형 대규모 언어 모델(LLM)이 벤치마크 점수는 높지만, 실제로는 모르는 걸 모른다고 말하는 능력에서 크게 흔들릴 수 있다는 글이다. 글쓴이는 오픈 웨이트 모델인 GLM-5.2가 훨씬 큰 폐쇄형 모델들에 성능상 근접하면서도 환각률은 더 낮았다는 점을 근거로, 모델 선택 기준을 파라미터 수에서 정확성·불확실성 보정·효율성으로 옮겨야 한다고 주장한다.
- 1
GLM-5.2는 7530억 파라미터, 활성 파라미터 약 400억 규모인데 GPT-5.5와 지능 지수 차이가 4점에 그쳤다
- 2
AA-Omniscience 벤치마크에서 GPT-5.5 환각률은 86%, GLM-5.2는 28%로 제시됐다
- 3
DeepSeek V4 Pro는 약 10배 많은 추론 토큰과 3분 26초를 쓰고도 구조적으로 불가능한 파이썬 문제에 자신 있게 틀린 답을 냈다
- 4
글쓴이는 현대 대규모 언어 모델(LLM)의 핵심 트레이드오프를 원시 성능, 불확실성 보정, 계산 효율성의 삼각 구도로 봐야 한다고 말한다
개발자가 모델을 고를 때 ‘제일 큰 모델’이나 ‘벤치마크 1등’만 보면 위험하다는 얘기다. 특히 코드 리뷰, 아키텍처 판단, 장애 분석처럼 틀린 답을 그럴듯하게 말하면 더 위험한 업무에서는 환각률과 모른다고 말하는 능력이 실전 성능에 가깝다.
관련 기사
서울 AI 허브, 커서 해커톤으로 공공데이터 기반 도시문제 해결 실험
서울 AI 허브가 Cursor 국내 공식 빌더 커뮤니티 Team Human과 함께 6월 27일 ‘Cursor Hackathon Seoul vol.3’를 연다. 참가자들은 생성형 AI와 서울시 공공데이터를 활용해 교통, 환경, 복지, 안전 같은 도시문제를 해결하는 서비스를 약 8시간 안에 구현하게 된다.
소버린 AI, 이제 ‘국산’보다 ‘통제권’ 기준을 따질 때
한국의 독자 AI 파운데이션 모델 프로젝트를 둘러싼 논쟁이 ‘외산 기술을 썼느냐’에 갇히면서 정작 중요한 기준 논의가 밀렸다는 지적이 나왔다. 전문가들은 소버린 AI의 핵심을 원산지 증명이 아니라 모델 가중치, 학습 과정, 데이터, 라이선스, 배포·운영 통제권을 국내 주체가 실제로 갖고 있는지로 봐야 한다고 말한다.
중국, AI를 가정과 상점에 밀어 넣는 ‘AI 플러스 소비’ 프로젝트 가동
중국 정부가 내수 침체를 돌파하기 위해 ‘AI 플러스 소비’ 활성화 계획을 내놨다. 휴머노이드, 실버 케어 로봇, 드론 배송, 스마트 홈, AI 체험 센터, 이자 보조금까지 묶어 AI 제품을 일상 소비재로 밀어붙이겠다는 전략이다.
AI 데이터센터 짓느라 빚내는 빅테크, 이제 금리도 신경 써야 함
아마존, 알파벳, 마이크로소프트, 메타 같은 하이퍼스케일러들이 AI 인프라에 올해 약 7천500억 달러를 쏟아부을 전망이다. 투자 규모가 너무 커지면서 잉여현금흐름만으로는 부족해졌고, 빅테크도 채권 발행과 금리 변화에 민감한 기업이 되고 있다.
알파폴드 노벨상 주역 존 점퍼, 구글 딥마인드 떠나 앤트로픽 합류
알파폴드 개발로 2024년 노벨 화학상을 받은 존 점퍼 구글 딥마인드 부사장이 앤트로픽으로 이직한다. 제미나이 공동 개발자 노엄 샤지어의 오픈AI 이직에 이어 구글 핵심 AI 인재 유출이 이어지는 모양새다.
댓글
댓글
댓글을 불러오는 중...