---
title: "최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄"
published: 2026-05-28T12:20:19.000Z
canonical: https://jeff.news/article/3428
---
# 최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄

Lenz Research가 최근 실제 사용자가 제출한 팩트체크 주장 1,000개를 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro에 같은 4지선다 판정으로 던졌더니 67%에서 모델 간 의견이 갈렸다. 특히 34%는 단순한 뉘앙스 차이가 아니라 True와 False처럼 판정 버킷이 2단계 이상 벌어지는 실질적 불일치였다. 단일 LLM을 사실 검증 심판처럼 쓰는 제품이라면, 정확도보다 먼저 판정 일관성부터 의심해야 하는 결과다.

## 벤치마크 말고, 진짜 사용자 팩트체크를 던졌더니

- Lenz Research가 실제 사용자들이 팩트체크 플랫폼에 제출한 주장 1,000개를 최전선 대규모 언어 모델(LLM) 5개에 그대로 던짐
  - 사용한 모델은 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro
  - 선택지는 딱 4개였음: True, Mostly True, Misleading, False
  - 설명도 금지하고, 변명도 금지하고, 라벨 하나만 내게 한 강제 선택 실험임

- 결과가 꽤 세다. 전체 1,000건 중 672건, 즉 67%에서 5개 모델이 완전히 합의하지 못함
  - 328건만 5개 모델이 전부 같은 판정을 냈고, 나머지는 최소 1개 모델이 다르게 찍음
  - 224건은 1개 모델만 다르게 봤고, 316건은 2개 모델이 다르게 봄
  - 132건은 아예 다수결도 안 만들어짐. 2-2-1이나 2-1-1-1처럼 갈라진 케이스임

> [!IMPORTANT]
> 가장 후하게 봐서 '다수결이 정답'이라고 가정해도, 67%의 claim에서는 최소 1개 모델이 틀린 판정을 낸 셈임. 실제 정답 라벨이 없으니 이건 하한선이고, 만장일치 케이스에도 공통 착각이 숨어 있을 수 있음.

- 단순히 'Mostly True냐 True냐' 같은 미묘한 차이만 있었던 것도 아님
  - 343건, 즉 34%에서는 가장 멀리 떨어진 두 모델의 판정이 2버킷 이상 벌어짐
  - 예를 들면 True 대 Misleading, Mostly True 대 False 같은 식임
  - 그중 211건은 True와 False가 동시에 나온 극단적 충돌이었음

## 모델별 성향도 꽤 다름

- 모델끼리 같은 라벨을 고른 비율은 생각보다 낮게 나옴
  - 가장 높은 조합은 Gemini 3 Pro와 Gemini 3 Pro + Search로 75%였는데, 같은 베이스 모델을 공유하니 놀랍진 않음
  - 낮은 조합은 Claude Opus 4.7 대 Gemini 3 Pro, Claude Opus 4.7 대 Gemini 3 Pro + Search, Gemini 3 Pro 대 Sonar Pro가 각각 53%로 묶임

- 모델마다 '판정 버릇'도 확연히 달랐음
  - Gemini 3 Pro는 True 54%, False 40%로 양극단에 몰리는 편이었고, Mostly True와 Misleading은 각각 3%밖에 안 줌
  - Claude Opus 4.7은 True 38%, Mostly True 26%, Misleading 19%, False 17%로 중간 버킷을 더 많이 씀
  - GPT-5.4는 True 42%, False 30%라 양끝을 많이 쓰지만 Gemini만큼 극단적이진 않았음
  - Sonar Pro는 True 35%, Mostly True 23%, Misleading 16%, False 26%로 비교적 퍼져 있음

- 다른 4개 모델이 3대1 이상으로 다수 의견을 만들었을 때, 각 모델이 그 의견과 맞은 비율도 69~81%에 그쳤음
  - GPT-5.4가 81%로 가장 높았고, Sonar Pro가 69%로 가장 낮았음
  - 다만 이건 정확도 순위가 아님. 정답 라벨이 없어서 '동료 모델 다수와 얼마나 비슷했나'만 본 수치임

## 어디서 특히 많이 갈렸나

- 도메인별로 봐도 팩트체크 자동화가 만만치 않다는 느낌이 강함
  - Legal은 48건 중 77%에서 의견이 갈렸고, 40%는 2버킷 이상 벌어짐
  - Health는 171건 중 71%에서 불일치가 있었지만, 실질적 불일치는 29%로 상대적으로 낮았음
  - Tech는 77건 중 69%에서 불일치, 31%에서 2버킷 이상 차이가 났음
  - Finance는 75건 중 20%가 아예 다수결이 안 만들어졌음

- 특히 중간 라벨에서 모델들이 약해짐
  - True가 다수 의견인 438건 중 47%는 5개 모델이 만장일치였음
  - False가 다수 의견인 280건 중 43%도 만장일치였음
  - 그런데 Mostly True가 다수 의견인 76건에서는 만장일치가 0건
  - Misleading이 다수 의견인 74건에서도 만장일치는 4건, 5%뿐이었음

> [!NOTE]
> 이건 LLM만의 문제가 아닐 수도 있음. 원문도 AVeriTeC 같은 실제 팩트체크 코퍼스에서 사람 평가자 간 합의가 완벽하지 않다는 점을 같이 언급함. 현실의 '부분적으로 맞음'과 '오해를 부름'은 사람한테도 어려운 라벨임.

## 연구 설계에서 봐야 할 포인트

- 이 연구는 '정답 맞히기 대회'가 아니라 '같은 문제를 줬을 때 모델들이 얼마나 같은 판단을 내리나'를 본 실험임
  - Lenz 자체 판정도 비교에 쓰지 않았고, 별도의 사람 정답 라벨도 쓰지 않음
  - 모든 측정은 5개 모델이 낸 라벨의 일치 여부에서 직접 계산됨
  - 그래서 특정 모델이 더 정확하다는 결론은 낼 수 없음

- 데이터는 최근 180일 안에 실제 사용자가 제출한 claim으로 구성됨
  - 공개 벤치마크처럼 오래 떠돌던 문제가 아니라, 비교적 신선한 현실 입력을 쓰려는 의도임
  - 감정적 표현이나 편향된 원문은 Lenz의 framing 단계를 거쳐 중립적이고 검증 가능한 단일 주장으로 정리됨
  - 예를 들어 과격한 사용자 문장은 '특정 날짜 기준, 특정 정부가 특정 이유로 사람을 수감했는가' 같은 원자적 claim으로 바뀜

- 오염 가능성을 줄이려는 필터도 꽤 빡세게 걸었음
  - 비공개 claim, 내부 계정, API 제출, 리뷰 대기/숨김 상태 claim은 제외
  - OpenAI text-embedding-3-small 임베딩 기준 cosine distance 0.2 이내의 근접 중복도 하나로 합침
  - 5개 모델 중 하나라도 파싱 가능한 답을 못 내면 해당 claim 전체를 제외함

## 프로덕션에서 찝찝한 지점

- 단일 LLM을 '팩트 판정기'처럼 쓰는 제품은 이 결과를 꽤 진지하게 봐야 함
  - 모델 하나가 내는 라벨은 꽤 그럴듯해 보여도, 같은 레벨의 다른 모델은 정반대로 볼 수 있음
  - 검색을 붙인 모델도 만능 해결책이 아니었고, 검색 기반 모델이 뭘 찾아봤는지도 연구에서 통제하지 못했음
  - 팩트체크, 정책 위반 판정, 리스크 심사처럼 라벨 하나가 후속 조치를 결정하는 시스템이면 더 위험함

- 재미있는 건, 이 연구가 오히려 'LLM 평가를 어떻게 해야 하나'에 대한 기사라는 점임
  - 정답률 하나로 모델을 줄 세우는 대신, 불일치 구조를 보는 방식이 현실 서비스에는 더 유용할 수 있음
  - 특히 중간 라벨에서 불확실성이 커진다는 결과는 제품 UI나 워크플로우에도 반영할 만함
  - '정답' 버튼 하나보다, 출처 확인·사람 리뷰·다중 모델 비교·불확실성 표시가 필요한 영역이 분명히 있음

---

## 기술 맥락

- 이 연구가 굳이 실제 사용자 claim을 쓴 이유는 공개 벤치마크가 이미 모델 학습 데이터에 들어갔을 가능성이 크기 때문이에요. TruthfulQA나 오래된 팩트체크 데이터셋으로 재면 모델이 추론을 잘한 건지, 예전에 본 문제를 떠올린 건지 구분이 흐려지거든요.

- 4개 라벨만 강제로 고르게 한 것도 꽤 중요한 선택이에요. Abstain을 허용하면 어떤 모델은 어려운 문제에서 빠지고, 어떤 모델은 억지로 답하면서 비교가 비대칭이 돼요. 여기서는 모두 같은 선택지 안에서 판단하게 만들어서 '답변 의지'가 아니라 '판정 차이'를 보려 한 거예요.

- Krippendorff's alpha를 쓴 건 라벨에 순서가 있기 때문이에요. True와 Mostly True의 차이는 True와 False의 차이보다 작잖아요. 그래서 단순히 같은지 다른지만 보는 지표보다, 버킷 간 거리를 반영하는 방식이 이 실험의 질문에 더 맞아요.

- 프로덕션 관점에서는 다중 모델 투표도 정답 보증이 아니라는 점이 핵심이에요. 연구진도 다수결을 ground truth로 쓰지 않았어요. 다만 다수결을 기준점으로 삼으면 최소 몇 개 모델이 일관되지 않은 판단을 했는지 계산할 수 있어서, 시스템 설계자가 위험의 바닥값을 잡는 데 도움이 돼요.

## 핵심 포인트

- 실제 사용자 팩트체크 1,000건 중 672건에서 최전선 LLM 5개가 완전히 합의하지 못함
- 343건은 판정 차이가 2버킷 이상 벌어져 단순 보수성 차이로 보기 어려움
- 검색 기반 모델을 섞어도 합의가 자동으로 좋아지지 않았고, 모델별 판정 성향도 크게 달랐음
- 연구는 정답 라벨 없이 모델 간 불일치만 측정했기 때문에 정확도 순위표가 아니라 위험 신호에 가까움

## 인사이트

이 결과의 핵심은 '어느 모델이 이겼나'가 아니라, 같은 입력과 같은 선택지를 줘도 프로덕션급 모델들이 현실 주장 앞에서는 꽤 자주 갈라진다는 점이다. 팩트체크, 컴플라이언스, 리스크 심사처럼 답 하나를 내야 하는 워크플로우라면 단일 모델 호출만으로 끝내는 설계가 생각보다 얇을 수 있다.