---
title: "스탠퍼드 법학 연구, 교수들은 동료 답변보다 AI 답변을 더 선호했다"
published: 2026-06-02T23:43:12.000Z
canonical: https://jeff.news/article/3653
---
# 스탠퍼드 법학 연구, 교수들은 동료 답변보다 AI 답변을 더 선호했다

스탠퍼드 로스쿨 연구진이 미국 법학 교수 16명을 대상으로 계약법 질문 답변을 블라인드 평가하게 했더니, AI 답변이 교수 동료의 답변보다 75%의 일대일 비교에서 더 높은 평가를 받았다. 법처럼 정답이 하나로 떨어지지 않는 영역에서도 대규모 언어 모델이 꽤 높은 교수법적 품질을 보였다는 점이 핵심이다. 다만 연구진은 AI 튜터의 전면 도입을 주장하진 않고, 이제 논의가 ‘쓸 수 있냐’에서 ‘어떻게 책임 있게 쓸 거냐’로 옮겨가야 한다고 말한다.

- 스탠퍼드 로스쿨 연구에서 법학 교수들이 동료 교수 답변보다 AI 답변을 더 선호했다는 결과가 나옴
  - 연구 제목은 ‘법학 교수들은 동료 답변보다 AI를 선호한다’에 가까운 내용
  - 계약법 수업에서 학생들이 물어볼 법한 질문에 AI가 효과적인 튜터가 될 수 있는지 본 실험임

- 실험 규모는 작지만 설계는 꽤 빡세게 잡음
  - 미국 로스쿨 소속 법학 교수 16명이 참여함
  - 익명화된 비교 평가가 약 3000개 진행됨
  - 교수들은 답변이 AI가 쓴 것인지, 다른 교수가 쓴 것인지 모르는 상태에서 평가함
  - 결과적으로 AI 답변은 일대일 비교에서 75% 승률을 기록함

> [!IMPORTANT]
> 포인트는 AI가 객관식 정답을 잘 맞혔다는 게 아님. 법처럼 판단, 해석, 모호성이 중요한 영역에서도 전문가들이 AI 답변을 더 자주 골랐다는 점임.

- 연구진이 법을 고른 이유도 여기에 있음
  - 기존 AI 평가는 정답이 분명한 과목에 치우친 경우가 많았음
  - 법학은 서로 반대되는 주장도 둘 다 좋은 논증일 수 있음
  - 단순 사실 암기가 아니라, 복잡한 자료를 종합하고 새로운 상황에 적용하고 학생이 이해할 수 있게 설명해야 함

- 참가 교수들은 계약법 관련 대표 질문 40개를 만들고 직접 답변도 작성함
  - 질문은 수업 후나 오피스아워에서 학생이 물어볼 만한 형태였음
  - 이후 AI 답변과 교수 답변을 비교 평가함
  - 연구진은 AI 답변의 길이와 구조가 사람 답변과 비슷해지도록 보정했다고 설명함

- 결과에서 더 눈에 띄는 건 ‘교육적으로 해롭다’는 표시 비율임
  - AI 답변은 3.5%만 교육적으로 해롭다고 표시됨
  - 동료 교수가 쓴 답변은 12%가 해롭다고 표시됨
  - 적어도 이 실험 조건에서는 AI가 이상한 답을 마구 뱉었다기보다, 학생에게 도움이 되는 설명으로 평가받은 셈

- 연구진은 이 결과가 꽤 놀라웠다고 말함
  - 단순하고 뻔한 질문이 아니라 복잡한 자료를 종합해야 하는 질문이 많았기 때문
  - AI 시스템은 연구 내 최고 수준의 인간 강사와 비슷한 성능을 보였다고 설명됨
  - 구글 노트북엘엠(NotebookLM) 같은 상용·실험적 튜터 시스템도 비교 대상에 포함됐고, 모델별 성능 차이도 있었다고 함

- 그렇다고 연구진이 AI 튜터 전면 도입을 외치는 건 아님
  - 연구는 AI 답변 품질을 평가한 것이지, 실제 수업에 어떻게 넣어야 학습 효과가 극대화되는지는 별도 문제라고 선을 그음
  - 환각, 과의존, 비판적 사고 약화 같은 리스크는 여전히 남아 있음
  - 다만 “AI가 고품질 답변을 줄 수 있냐”에 대한 무조건적 회의론도 이제 설득력이 약해졌다는 입장임

- 개발자에게도 꽤 직접적인 시사점이 있음
  - 사내 지식 봇, 코딩 튜터, 고객 지원 AI를 평가할 때 단순 정답률만 보면 부족함
  - 전문가가 블라인드로 비교했을 때 더 유용한지, 오해를 만들 가능성은 낮은지 같이 봐야 함
  - 특히 정답이 하나가 아닌 도메인에서는 “맞다/틀리다”보다 “전문가 기준에서 방어 가능한 설명인가”가 중요해짐

---
## 기술 맥락

- 이 연구가 흥미로운 이유는 평가 대상이 법학이었다는 점이에요. 법은 수학 문제처럼 답이 하나로 떨어지지 않고, 여러 논증 중 어떤 설명이 더 설득력 있는지 봐야 하거든요.

- 그래서 연구진은 블라인드 평가를 썼어요. 교수가 답변 출처를 모르면 “AI니까 별로일 것” 또는 “동료 교수니까 더 믿을 만할 것” 같은 선입견을 줄일 수 있으니까요.

- AI 튜터의 핵심 가치는 온디맨드 설명이에요. 학생이 수업 직후나 혼자 공부하다 막혔을 때 바로 질문할 수 있고, 이번 연구에서는 그런 답변이 교수 평가 기준에서도 꽤 높은 품질로 보였다는 거예요.

- 하지만 품질 좋은 답변과 좋은 교육 시스템은 같은 말이 아니에요. AI가 답을 너무 잘 주면 학생이 스스로 논증을 만드는 훈련을 덜 할 수도 있고, 환각이 드물게 섞여도 법학 교육에서는 꽤 위험할 수 있어요.

- 개발 조직에서 AI 도구를 평가할 때도 비슷해요. 단순 정확도 대신 전문가 선호도, 유해한 답변 비율, 실제 업무 흐름에서의 배치 방식을 같이 봐야 모델 도입 판단이 덜 허술해져요.

## 핵심 포인트

- 미국 법학 교수 16명이 약 3000개의 익명 비교 평가에 참여함
- AI 답변은 교수 동료가 쓴 답변과의 일대일 비교에서 75% 승률을 기록함
- 교수들은 AI 답변을 교육적으로 해롭다고 표시한 비율이 3.5%였고, 동료 답변은 12%였음
- 연구 대상은 정답 암기보다 판단과 모호성 처리가 중요한 계약법 질문이었음
- 연구진은 전면 도입보다 책임 있는 배치 방식에 대한 논의가 필요하다고 봄

## 인사이트

이 연구가 재밌는 건 법처럼 ‘정답 하나’가 없는 영역에서도 AI 답변이 꽤 높은 평가를 받았다는 점임. 개발자 입장에서는 코딩 교육, 사내 지식 튜터, 고객 지원 봇 평가에서도 단순 정답률 말고 전문가 선호도와 유해성 평가를 같이 봐야 한다는 힌트가 된다.