본문으로 건너뛰기
피드

최전선 LLM 5개, 실제 팩트체크 67%에서 서로 다른 답을 냄

ai-ml 약 10분
vote
0
댓글
북마크

Lenz Research가 최근 실제 사용자가 제출한 팩트체크 주장 1,000개를 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro에 같은 4지선다 판정으로 던졌더니 67%에서 모델 간 의견이 갈렸다. 특히 34%는 단순한 뉘앙스 차이가 아니라 True와 False처럼 판정 버킷이 2단계 이상 벌어지는 실질적 불일치였다. 단일 LLM을 사실 검증 심판처럼 쓰는 제품이라면, 정확도보다 먼저 판정 일관성부터 의심해야 하는 결과다.

  • 1

    실제 사용자 팩트체크 1,000건 중 672건에서 최전선 LLM 5개가 완전히 합의하지 못함

  • 2

    343건은 판정 차이가 2버킷 이상 벌어져 단순 보수성 차이로 보기 어려움

  • 3

    검색 기반 모델을 섞어도 합의가 자동으로 좋아지지 않았고, 모델별 판정 성향도 크게 달랐음

  • 4

    연구는 정답 라벨 없이 모델 간 불일치만 측정했기 때문에 정확도 순위표가 아니라 위험 신호에 가까움

벤치마크 말고, 진짜 사용자 팩트체크를 던졌더니

  • Lenz Research가 실제 사용자들이 팩트체크 플랫폼에 제출한 주장 1,000개를 최전선 대규모 언어 모델(LLM) 5개에 그대로 던짐

    • 사용한 모델은 GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro
    • 선택지는 딱 4개였음: True, Mostly True, Misleading, False
    • 설명도 금지하고, 변명도 금지하고, 라벨 하나만 내게 한 강제 선택 실험임
  • 결과가 꽤 세다. 전체 1,000건 중 672건, 즉 67%에서 5개 모델이 완전히 합의하지 못함

    • 328건만 5개 모델이 전부 같은 판정을 냈고, 나머지는 최소 1개 모델이 다르게 찍음
    • 224건은 1개 모델만 다르게 봤고, 316건은 2개 모델이 다르게 봄
    • 132건은 아예 다수결도 안 만들어짐. 2-2-1이나 2-1-1-1처럼 갈라진 케이스임

중요

> 가장 후하게 봐서 '다수결이 정답'이라고 가정해도, 67%의 claim에서는 최소 1개 모델이 틀린 판정을 낸 셈임. 실제 정답 라벨이 없으니 이건 하한선이고, 만장일치 케이스에도 공통 착각이 숨어 있을 수 있음.

  • 단순히 'Mostly True냐 True냐' 같은 미묘한 차이만 있었던 것도 아님
    • 343건, 즉 34%에서는 가장 멀리 떨어진 두 모델의 판정이 2버킷 이상 벌어짐
    • 예를 들면 True 대 Misleading, Mostly True 대 False 같은 식임
    • 그중 211건은 True와 False가 동시에 나온 극단적 충돌이었음

모델별 성향도 꽤 다름

  • 모델끼리 같은 라벨을 고른 비율은 생각보다 낮게 나옴

    • 가장 높은 조합은 Gemini 3 Pro와 Gemini 3 Pro + Search로 75%였는데, 같은 베이스 모델을 공유하니 놀랍진 않음
    • 낮은 조합은 Claude Opus 4.7 대 Gemini 3 Pro, Claude Opus 4.7 대 Gemini 3 Pro + Search, Gemini 3 Pro 대 Sonar Pro가 각각 53%로 묶임
  • 모델마다 '판정 버릇'도 확연히 달랐음

    • Gemini 3 Pro는 True 54%, False 40%로 양극단에 몰리는 편이었고, Mostly True와 Misleading은 각각 3%밖에 안 줌
    • Claude Opus 4.7은 True 38%, Mostly True 26%, Misleading 19%, False 17%로 중간 버킷을 더 많이 씀
    • GPT-5.4는 True 42%, False 30%라 양끝을 많이 쓰지만 Gemini만큼 극단적이진 않았음
    • Sonar Pro는 True 35%, Mostly True 23%, Misleading 16%, False 26%로 비교적 퍼져 있음
  • 다른 4개 모델이 3대1 이상으로 다수 의견을 만들었을 때, 각 모델이 그 의견과 맞은 비율도 69~81%에 그쳤음

    • GPT-5.4가 81%로 가장 높았고, Sonar Pro가 69%로 가장 낮았음
    • 다만 이건 정확도 순위가 아님. 정답 라벨이 없어서 '동료 모델 다수와 얼마나 비슷했나'만 본 수치임

어디서 특히 많이 갈렸나

  • 도메인별로 봐도 팩트체크 자동화가 만만치 않다는 느낌이 강함

    • Legal은 48건 중 77%에서 의견이 갈렸고, 40%는 2버킷 이상 벌어짐
    • Health는 171건 중 71%에서 불일치가 있었지만, 실질적 불일치는 29%로 상대적으로 낮았음
    • Tech는 77건 중 69%에서 불일치, 31%에서 2버킷 이상 차이가 났음
    • Finance는 75건 중 20%가 아예 다수결이 안 만들어졌음
  • 특히 중간 라벨에서 모델들이 약해짐

    • True가 다수 의견인 438건 중 47%는 5개 모델이 만장일치였음
    • False가 다수 의견인 280건 중 43%도 만장일치였음
    • 그런데 Mostly True가 다수 의견인 76건에서는 만장일치가 0건
    • Misleading이 다수 의견인 74건에서도 만장일치는 4건, 5%뿐이었음

ℹ️참고

> 이건 LLM만의 문제가 아닐 수도 있음. 원문도 AVeriTeC 같은 실제 팩트체크 코퍼스에서 사람 평가자 간 합의가 완벽하지 않다는 점을 같이 언급함. 현실의 '부분적으로 맞음'과 '오해를 부름'은 사람한테도 어려운 라벨임.

연구 설계에서 봐야 할 포인트

  • 이 연구는 '정답 맞히기 대회'가 아니라 '같은 문제를 줬을 때 모델들이 얼마나 같은 판단을 내리나'를 본 실험임

    • Lenz 자체 판정도 비교에 쓰지 않았고, 별도의 사람 정답 라벨도 쓰지 않음
    • 모든 측정은 5개 모델이 낸 라벨의 일치 여부에서 직접 계산됨
    • 그래서 특정 모델이 더 정확하다는 결론은 낼 수 없음
  • 데이터는 최근 180일 안에 실제 사용자가 제출한 claim으로 구성됨

    • 공개 벤치마크처럼 오래 떠돌던 문제가 아니라, 비교적 신선한 현실 입력을 쓰려는 의도임
    • 감정적 표현이나 편향된 원문은 Lenz의 framing 단계를 거쳐 중립적이고 검증 가능한 단일 주장으로 정리됨
    • 예를 들어 과격한 사용자 문장은 '특정 날짜 기준, 특정 정부가 특정 이유로 사람을 수감했는가' 같은 원자적 claim으로 바뀜
  • 오염 가능성을 줄이려는 필터도 꽤 빡세게 걸었음

    • 비공개 claim, 내부 계정, API 제출, 리뷰 대기/숨김 상태 claim은 제외
    • OpenAI text-embedding-3-small 임베딩 기준 cosine distance 0.2 이내의 근접 중복도 하나로 합침
    • 5개 모델 중 하나라도 파싱 가능한 답을 못 내면 해당 claim 전체를 제외함

프로덕션에서 찝찝한 지점

  • 단일 LLM을 '팩트 판정기'처럼 쓰는 제품은 이 결과를 꽤 진지하게 봐야 함

    • 모델 하나가 내는 라벨은 꽤 그럴듯해 보여도, 같은 레벨의 다른 모델은 정반대로 볼 수 있음
    • 검색을 붙인 모델도 만능 해결책이 아니었고, 검색 기반 모델이 뭘 찾아봤는지도 연구에서 통제하지 못했음
    • 팩트체크, 정책 위반 판정, 리스크 심사처럼 라벨 하나가 후속 조치를 결정하는 시스템이면 더 위험함
  • 재미있는 건, 이 연구가 오히려 'LLM 평가를 어떻게 해야 하나'에 대한 기사라는 점임

    • 정답률 하나로 모델을 줄 세우는 대신, 불일치 구조를 보는 방식이 현실 서비스에는 더 유용할 수 있음
    • 특히 중간 라벨에서 불확실성이 커진다는 결과는 제품 UI나 워크플로우에도 반영할 만함
    • '정답' 버튼 하나보다, 출처 확인·사람 리뷰·다중 모델 비교·불확실성 표시가 필요한 영역이 분명히 있음

기술 맥락

  • 이 연구가 굳이 실제 사용자 claim을 쓴 이유는 공개 벤치마크가 이미 모델 학습 데이터에 들어갔을 가능성이 크기 때문이에요. TruthfulQA나 오래된 팩트체크 데이터셋으로 재면 모델이 추론을 잘한 건지, 예전에 본 문제를 떠올린 건지 구분이 흐려지거든요.

  • 4개 라벨만 강제로 고르게 한 것도 꽤 중요한 선택이에요. Abstain을 허용하면 어떤 모델은 어려운 문제에서 빠지고, 어떤 모델은 억지로 답하면서 비교가 비대칭이 돼요. 여기서는 모두 같은 선택지 안에서 판단하게 만들어서 '답변 의지'가 아니라 '판정 차이'를 보려 한 거예요.

  • Krippendorff's alpha를 쓴 건 라벨에 순서가 있기 때문이에요. True와 Mostly True의 차이는 True와 False의 차이보다 작잖아요. 그래서 단순히 같은지 다른지만 보는 지표보다, 버킷 간 거리를 반영하는 방식이 이 실험의 질문에 더 맞아요.

  • 프로덕션 관점에서는 다중 모델 투표도 정답 보증이 아니라는 점이 핵심이에요. 연구진도 다수결을 ground truth로 쓰지 않았어요. 다만 다수결을 기준점으로 삼으면 최소 몇 개 모델이 일관되지 않은 판단을 했는지 계산할 수 있어서, 시스템 설계자가 위험의 바닥값을 잡는 데 도움이 돼요.

이 결과의 핵심은 '어느 모델이 이겼나'가 아니라, 같은 입력과 같은 선택지를 줘도 프로덕션급 모델들이 현실 주장 앞에서는 꽤 자주 갈라진다는 점이다. 팩트체크, 컴플라이언스, 리스크 심사처럼 답 하나를 내야 하는 워크플로우라면 단일 모델 호출만으로 끝내는 설계가 생각보다 얇을 수 있다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

대학생들은 이미 챗지피티와 제미나이를 쪼개 쓰는 ‘AI 네이티브’가 됐다

이화여대 학생 설문과 인터뷰를 보면 생성형 AI는 과제 보조 도구를 넘어 학습, 글쓰기, 자료조사, 감정 상담까지 들어온 일상 인프라가 됐다. 학생들은 챗지피티, 제미나이, 클로드, 퍼플렉시티를 용도별로 나눠 쓰면서도 환각과 오류 때문에 교차검증이 필요하다고 보고 있다. 대학의 윤리 지침은 존재하지만 학생 체감은 낮고, 이제는 금지보다 활용 교육과 평가 방식 재설계가 핵심 이슈로 떠올랐다.

ai-ml

AI 에이전트 시대, 진짜 해자는 코딩 실력이 아니라 도메인 지식이다

이 글은 에이전트형 AI가 소프트웨어 개발의 병목을 “만들 수 있나”에서 “맞는지 판단할 수 있나”로 옮겼다고 주장한다. 일반ist 엔지니어의 코드 생산 능력보다, 특정 도메인의 정답을 알아보고 검증할 수 있는 사람이 더 큰 가치를 갖게 된다는 얘기다.

ai-ml

OpenRouter, 시리즈 B에서 1억1300만 달러 조달…멀티 모델 AI 인프라 판 커진다

OpenRouter가 알파벳 성장펀드 CapitalG 주도로 1억1300만 달러 규모 시리즈 B 투자를 받았다. 최근 6개월간 주간 처리량이 5조 토큰에서 25조 토큰으로 5배 늘었고, 올해 1천조 토큰 이상을 처리하는 속도로 성장 중이라고 밝혔다.

ai-ml

테슬라 FSD, 중국서 첫 집단 사기 소송 심리 시작

중국 베이징 법원이 테슬라의 풀 셀프 드라이빙 판매 약속을 둘러싼 소비자 사기 소송 첫 심리를 열었다. 원고 10명은 2019~2021년에 약 5만6천 위안을 내고 FSD를 샀지만, 실제 중국 출시 기능은 구형 하드웨어 차량을 배제했고 완전 자율주행도 제공하지 못했다고 주장한다. 중국 소비자보호법상 사기로 인정되면 환불뿐 아니라 3배 배상까지 이어질 수 있어 파장이 크다.

ai-ml

안도르 제작자, 1,500쪽 대본 공개 접은 이유는 “AI 학습 데이터 되기 싫어서”

스타워즈 드라마 안도르의 쇼러너 토니 길로이가 준비해둔 1,500쪽짜리 대본·콘셉트 아트 공개 계획을 접었다. 이유는 단순하다. 공개하는 순간 AI 모델 학습 데이터로 빨려 들어갈 수 있다는 우려 때문이다. 헐리우드 창작자와 스튜디오, AI 기업 사이의 저작권·학습 데이터 갈등이 다시 선명하게 드러난 사례다.