최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄

ai-ml 2026-05-28 약 10분

 tags

#llm #fact-checking #evaluation #retrieval #benchmark

vote

북마크

Lenz Research가 최근 실제 사용자가 제출한 팩트체크 주장 1,000개를 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro에 같은 4지선다 판정으로 던졌더니 67%에서 모델 간 의견이 갈렸다. 특히 34%는 단순한 뉘앙스 차이가 아니라 True와 False처럼 판정 버킷이 2단계 이상 벌어지는 실질적 불일치였다. 단일 LLM을 사실 검증 심판처럼 쓰는 제품이라면, 정확도보다 먼저 판정 일관성부터 의심해야 하는 결과다.

1
실제 사용자 팩트체크 1,000건 중 672건에서 최전선 LLM 5개가 완전히 합의하지 못함
2
343건은 판정 차이가 2버킷 이상 벌어져 단순 보수성 차이로 보기 어려움
3
검색 기반 모델을 섞어도 합의가 자동으로 좋아지지 않았고, 모델별 판정 성향도 크게 달랐음
4
연구는 정답 라벨 없이 모델 간 불일치만 측정했기 때문에 정확도 순위표가 아니라 위험 신호에 가까움

벤치마크 말고, 진짜 사용자 팩트체크를 던졌더니

Lenz Research가 실제 사용자들이 팩트체크 플랫폼에 제출한 주장 1,000개를 최전선 대규모 언어 모델(LLM) 5개에 그대로 던짐
- 사용한 모델은 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro
- 선택지는 딱 4개였음: True, Mostly True, Misleading, False
- 설명도 금지하고, 변명도 금지하고, 라벨 하나만 내게 한 강제 선택 실험임
결과가 꽤 세다. 전체 1,000건 중 672건, 즉 67%에서 5개 모델이 완전히 합의하지 못함
- 328건만 5개 모델이 전부 같은 판정을 냈고, 나머지는 최소 1개 모델이 다르게 찍음
- 224건은 1개 모델만 다르게 봤고, 316건은 2개 모델이 다르게 봄
- 132건은 아예 다수결도 안 만들어짐. 2-2-1이나 2-1-1-1처럼 갈라진 케이스임

❗중요

> 가장 후하게 봐서 '다수결이 정답'이라고 가정해도, 67%의 claim에서는 최소 1개 모델이 틀린 판정을 낸 셈임. 실제 정답 라벨이 없으니 이건 하한선이고, 만장일치 케이스에도 공통 착각이 숨어 있을 수 있음.

단순히 'Mostly True냐 True냐' 같은 미묘한 차이만 있었던 것도 아님
- 343건, 즉 34%에서는 가장 멀리 떨어진 두 모델의 판정이 2버킷 이상 벌어짐
- 예를 들면 True 대 Misleading, Mostly True 대 False 같은 식임
- 그중 211건은 True와 False가 동시에 나온 극단적 충돌이었음

모델별 성향도 꽤 다름

모델끼리 같은 라벨을 고른 비율은 생각보다 낮게 나옴
- 가장 높은 조합은 Gemini 3 Pro와 Gemini 3 Pro + Search로 75%였는데, 같은 베이스 모델을 공유하니 놀랍진 않음
- 낮은 조합은 Claude Opus 4.7 대 Gemini 3 Pro, Claude Opus 4.7 대 Gemini 3 Pro + Search, Gemini 3 Pro 대 Sonar Pro가 각각 53%로 묶임
모델마다 '판정 버릇'도 확연히 달랐음
- Gemini 3 Pro는 True 54%, False 40%로 양극단에 몰리는 편이었고, Mostly True와 Misleading은 각각 3%밖에 안 줌
- Claude Opus 4.7은 True 38%, Mostly True 26%, Misleading 19%, False 17%로 중간 버킷을 더 많이 씀
- GPT-5.4는 True 42%, False 30%라 양끝을 많이 쓰지만 Gemini만큼 극단적이진 않았음
- Sonar Pro는 True 35%, Mostly True 23%, Misleading 16%, False 26%로 비교적 퍼져 있음
다른 4개 모델이 3대1 이상으로 다수 의견을 만들었을 때, 각 모델이 그 의견과 맞은 비율도 69~81%에 그쳤음
- GPT-5.4가 81%로 가장 높았고, Sonar Pro가 69%로 가장 낮았음
- 다만 이건 정확도 순위가 아님. 정답 라벨이 없어서 '동료 모델 다수와 얼마나 비슷했나'만 본 수치임

어디서 특히 많이 갈렸나

도메인별로 봐도 팩트체크 자동화가 만만치 않다는 느낌이 강함
- Legal은 48건 중 77%에서 의견이 갈렸고, 40%는 2버킷 이상 벌어짐
- Health는 171건 중 71%에서 불일치가 있었지만, 실질적 불일치는 29%로 상대적으로 낮았음
- Tech는 77건 중 69%에서 불일치, 31%에서 2버킷 이상 차이가 났음
- Finance는 75건 중 20%가 아예 다수결이 안 만들어졌음
특히 중간 라벨에서 모델들이 약해짐
- True가 다수 의견인 438건 중 47%는 5개 모델이 만장일치였음
- False가 다수 의견인 280건 중 43%도 만장일치였음
- 그런데 Mostly True가 다수 의견인 76건에서는 만장일치가 0건
- Misleading이 다수 의견인 74건에서도 만장일치는 4건, 5%뿐이었음

ℹ️참고

> 이건 LLM만의 문제가 아닐 수도 있음. 원문도 AVeriTeC 같은 실제 팩트체크 코퍼스에서 사람 평가자 간 합의가 완벽하지 않다는 점을 같이 언급함. 현실의 '부분적으로 맞음'과 '오해를 부름'은 사람한테도 어려운 라벨임.

연구 설계에서 봐야 할 포인트

이 연구는 '정답 맞히기 대회'가 아니라 '같은 문제를 줬을 때 모델들이 얼마나 같은 판단을 내리나'를 본 실험임
- Lenz 자체 판정도 비교에 쓰지 않았고, 별도의 사람 정답 라벨도 쓰지 않음
- 모든 측정은 5개 모델이 낸 라벨의 일치 여부에서 직접 계산됨
- 그래서 특정 모델이 더 정확하다는 결론은 낼 수 없음
데이터는 최근 180일 안에 실제 사용자가 제출한 claim으로 구성됨
- 공개 벤치마크처럼 오래 떠돌던 문제가 아니라, 비교적 신선한 현실 입력을 쓰려는 의도임
- 감정적 표현이나 편향된 원문은 Lenz의 framing 단계를 거쳐 중립적이고 검증 가능한 단일 주장으로 정리됨
- 예를 들어 과격한 사용자 문장은 '특정 날짜 기준, 특정 정부가 특정 이유로 사람을 수감했는가' 같은 원자적 claim으로 바뀜
오염 가능성을 줄이려는 필터도 꽤 빡세게 걸었음
- 비공개 claim, 내부 계정, API 제출, 리뷰 대기/숨김 상태 claim은 제외
- OpenAI text-embedding-3-small 임베딩 기준 cosine distance 0.2 이내의 근접 중복도 하나로 합침
- 5개 모델 중 하나라도 파싱 가능한 답을 못 내면 해당 claim 전체를 제외함

프로덕션에서 찝찝한 지점

단일 LLM을 '팩트 판정기'처럼 쓰는 제품은 이 결과를 꽤 진지하게 봐야 함
- 모델 하나가 내는 라벨은 꽤 그럴듯해 보여도, 같은 레벨의 다른 모델은 정반대로 볼 수 있음
- 검색을 붙인 모델도 만능 해결책이 아니었고, 검색 기반 모델이 뭘 찾아봤는지도 연구에서 통제하지 못했음
- 팩트체크, 정책 위반 판정, 리스크 심사처럼 라벨 하나가 후속 조치를 결정하는 시스템이면 더 위험함
재미있는 건, 이 연구가 오히려 'LLM 평가를 어떻게 해야 하나'에 대한 기사라는 점임
- 정답률 하나로 모델을 줄 세우는 대신, 불일치 구조를 보는 방식이 현실 서비스에는 더 유용할 수 있음
- 특히 중간 라벨에서 불확실성이 커진다는 결과는 제품 UI나 워크플로우에도 반영할 만함
- '정답' 버튼 하나보다, 출처 확인·사람 리뷰·다중 모델 비교·불확실성 표시가 필요한 영역이 분명히 있음

기술 맥락

이 연구가 굳이 실제 사용자 claim을 쓴 이유는 공개 벤치마크가 이미 모델 학습 데이터에 들어갔을 가능성이 크기 때문이에요. TruthfulQA나 오래된 팩트체크 데이터셋으로 재면 모델이 추론을 잘한 건지, 예전에 본 문제를 떠올린 건지 구분이 흐려지거든요.
4개 라벨만 강제로 고르게 한 것도 꽤 중요한 선택이에요. Abstain을 허용하면 어떤 모델은 어려운 문제에서 빠지고, 어떤 모델은 억지로 답하면서 비교가 비대칭이 돼요. 여기서는 모두 같은 선택지 안에서 판단하게 만들어서 '답변 의지'가 아니라 '판정 차이'를 보려 한 거예요.
Krippendorff's alpha를 쓴 건 라벨에 순서가 있기 때문이에요. True와 Mostly True의 차이는 True와 False의 차이보다 작잖아요. 그래서 단순히 같은지 다른지만 보는 지표보다, 버킷 간 거리를 반영하는 방식이 이 실험의 질문에 더 맞아요.
프로덕션 관점에서는 다중 모델 투표도 정답 보증이 아니라는 점이 핵심이에요. 연구진도 다수결을 ground truth로 쓰지 않았어요. 다만 다수결을 기준점으로 삼으면 최소 몇 개 모델이 일관되지 않은 판단을 했는지 계산할 수 있어서, 시스템 설계자가 위험의 바닥값을 잡는 데 도움이 돼요.

이 결과의 핵심은 '어느 모델이 이겼나'가 아니라, 같은 입력과 같은 선택지를 줘도 프로덕션급 모델들이 현실 주장 앞에서는 꽤 자주 갈라진다는 점이다. 팩트체크, 컴플라이언스, 리스크 심사처럼 답 하나를 내야 하는 워크플로우라면 단일 모델 호출만으로 끝내는 설계가 생각보다 얇을 수 있다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄

요약

핵심 포인트

핵심 개념

분석

벤치마크 말고, 진짜 사용자 팩트체크를 던졌더니

모델별 성향도 꽤 다름

어디서 특히 많이 갈렸나

연구 설계에서 봐야 할 포인트

프로덕션에서 찝찝한 지점

기술 맥락

인사이트

댓글

댓글

최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄

요약

핵심 포인트

핵심 개념

분석

벤치마크 말고, 진짜 사용자 팩트체크를 던졌더니

모델별 성향도 꽤 다름

어디서 특히 많이 갈렸나

연구 설계에서 봐야 할 포인트

프로덕션에서 찝찝한 지점

기술 맥락

인사이트

댓글

댓글

관련 기사