AI 답안이 로스쿨 교수 답안보다 더 낫다는 블라인드 테스트 결과

ai-ml 2026-06-05 약 5분

 tags

#llm #rag #education #legaltech

vote

북마크

미국 14개 로스쿨의 계약법 교수 16명이 참여한 블라인드 평가에서 제미나이 2.5 프로와 노트북LM 답변이 인간 교수 답변보다 높은 평가를 받았다. 단순 암기가 아니라 가상 사례와 정책 질문처럼 법적 추론이 필요한 영역에서도 AI가 앞섰고, 유해한 오답 비율도 훨씬 낮았다.

1
교수 16명과 AI 답변을 총 2,918번 1대1로 비교한 결과 제미나이 2.5 프로 승률은 75.92%, 노트북LM은 74.75%였다.
2
전공 교재를 붙인 검색증강생성 방식의 노트북LM이 기본 제미나이보다 낮게 평가돼 긴 문맥이 항상 이득은 아니라는 점이 드러났다.
3
연구진은 AI 튜터 도입 가능성을 봤지만 사용 범위, 답변 거부 정책, 출처 표기, 교수 이관 경로 같은 안전장치가 필요하다고 봤다.

AI가 로스쿨 교수 답변보다 낫다는 꽤 센 결과가 나옴
- 미국 스탠퍼드, 예일 등 14개 로스쿨 소속 계약법 교수 16명이 참여한 실험임
- 교수들이 낸 대표 질문 40개에 대해 인간 교수와 AI가 각각 3분 분량의 주관식 답변을 작성함
- 평가자는 답변 작성자가 사람인지 AI인지 모르는 상태에서 “내 학생에게 어느 답변이 더 유익한가”만 보고 골랐음
결과는 AI 쪽으로 크게 기울었음
- 총 2,918번의 1대1 블라인드 비교에서 제미나이 2.5 프로는 평균 승률 75.92%를 기록함
- 노트북LM도 74.75% 승률로 인간 교수 답변을 앞섬
- 대충 4번 비교하면 3번은 교수가 AI 답변을 더 낫다고 고른 셈이라 꽤 충격적임
더 흥미로운 건 이게 단순 암기 테스트가 아니라 법적 추론 테스트였다는 점임
- 연구진은 모호한 상황에서 법적 기준을 찾아 방어 가능한 결론을 내는 능력을 봤다고 설명함
- 제미나이는 가상 사례 질문에서 74.24%, 사례·조문 암기 영역에서 77.17% 승률을 기록함
- 노트북LM도 각각 72.69%, 76.80%로 인간 교수 답변보다 높은 평가를 받음

❗중요

> 인간 교수 답변의 유해한 오답 비율은 평균 12.06%였고 최대 39.75%까지 갔지만, AI 모델들은 3%대에 그쳤음. 적어도 이 테스트에선 AI 할루시네이션이 인간 교수의 부정확한 답변보다 덜 문제가 됐다는 얘기임.

검색증강생성(RAG)을 붙인 노트북LM이 기본 제미나이보다 낮게 평가된 것도 포인트임
- 노트북LM은 전공 교재를 참조하도록 구성됐는데, 제미나이 2.5 프로보다 승률이 조금 낮았음
- 연구진은 긴 문서를 문맥에 넣으면 관련 자료가 희석되고 노이즈가 섞일 수 있다고 봄
- “문서 많이 넣으면 더 정확해지겠지”라는 직관이 실제 제품에서는 쉽게 깨질 수 있다는 사례임
이후 더 최신 모델을 넣은 2차 테스트에선 격차가 더 벌어진 것으로 나옴
- 연구진은 라마-4 매버릭에 교수 모범답안을 학습시켜 재현성을 확인하고 AI 심사관으로 활용함
- 9개 최신 AI 모델 비교에서는 클로드 오퍼스 4.7이 1위를 차지함
- 추가 평가에 들어간 모든 AI 모델이 평균적으로 실제 로스쿨 교수 답변보다 높은 평가를 받았고, 인간 교수진은 최하위에 머묾
그렇다고 “교수 끝났다”로 받아들이면 너무 단순함
- 연구진은 상시 AI 튜터 가능성을 제시하면서도 사용 범위 제한, 답변 거부 정책, 일관성, 출처 표기, 교수에게 넘기는 경로가 필요하다고 봄
- 국내 법조계에서도 AI가 표준 질문에는 빠르고 구조화된 답을 줄 수 있지만, 직업윤리나 가치판단 훈련까지 대체하긴 어렵다는 반응이 나옴
- 결국 AI는 교수를 없애는 도구라기보다 설명, 토론, 사례연구, 채점 피드백을 보조하는 교육 인프라에 가까워 보임

기술 맥락

이번 실험에서 중요한 선택은 범용 대형 언어 모델(LLM)과 교재 기반 검색증강생성(RAG)을 나란히 비교했다는 점이에요. 단순히 “AI가 똑똑하다”가 아니라, 외부 지식을 붙인 구성이 실제 사용자에게 더 도움이 되는지를 본 거라 제품 설계 관점에서 의미가 커요.
검색증강생성이 낮게 나온 이유는 긴 문맥이 모델에게 항상 좋은 재료가 아니기 때문이에요. 관련 없는 내용이 섞이면 답변의 초점이 흐려지고, 모델이 중요한 근거보다 주변 노이즈를 더 크게 반영할 수 있거든요.
법학 교육이라는 맥락도 중요해요. 여기서는 정답 하나를 맞히는 게 아니라 모호한 사실관계에서 논리를 세우고 학생에게 이해 가능한 설명을 주는 능력을 평가했어요. 그래서 개발자에게도 “도메인 전문가용 AI를 어떻게 평가할 것인가”라는 질문으로 읽을 만해요.
실제 서비스로 옮기려면 모델 성능보다 운영 정책이 더 중요해져요. 답변하면 안 되는 질문을 거부하고, 출처를 남기고, 어려운 사례는 인간 전문가에게 넘기는 흐름이 없으면 좋은 벤치마크 점수만으로는 현장에 넣기 어렵거든요.

개발자 입장에선 법학 뉴스라기보다 도메인 지식형 AI 제품 설계 사례로 보는 게 더 재밌다. 검색증강생성을 붙이면 무조건 좋아진다는 믿음에 살짝 찬물이 끼얹어진 결과이기도 하다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

AI 답안이 로스쿨 교수 답안보다 더 낫다는 블라인드 테스트 결과

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

AI 답안이 로스쿨 교수 답안보다 더 낫다는 블라인드 테스트 결과

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사