---
title: "AI가 논문과 심사평까지 쓰는 시대, 문제는 탐지 기준이 엉망이라는 것"
published: 2026-05-06T09:05:01.631Z
canonical: https://jeff.news/article/2242
---
# AI가 논문과 심사평까지 쓰는 시대, 문제는 탐지 기준이 엉망이라는 것

학술계에서 AI가 쓴 논문 초록과 동료심사 보고서가 빠르게 늘고 있지만, 이를 제대로 측정할 기준과 도구는 아직 불안정하다. 네이처가 소개한 여러 연구는 챗GPT 이후 투고량과 AI 생성 텍스트 비율이 크게 뛰었다는 신호를 보여주지만, 전면 생성과 부분 보강을 구분하지 못하는 한계도 같이 드러낸다.

- AI가 논문만 쓰는 게 아니라 동료심사 보고서까지 꽤 깊게 들어온 정황이 나옴
  - 네이처가 소개한 여러 연구에 따르면, 챗GPT 출시 이후 학술 투고와 심사 과정에서 AI 생성 텍스트 비율이 빠르게 늘고 있음
  - 미국 그래파이트가 3월 말 새 웹페이지 5만5000개를 분석했더니, 장르를 가리지 않고 AI가 쓴 글이 사람 글보다 많았다는 결과도 나옴

- 문제는 “얼마나 AI가 썼냐”를 재는 도구가 아직 믿기 어렵다는 것
  - 일부 AI 탐지 도구는 AI가 전체를 쓴 글과 사람이 쓴 글을 AI가 조금 다듬은 글을 제대로 구분하지 못함
  - 시스템마다 “AI 생성” 기준이 달라서, 인간이 쓴 텍스트를 AI 생성으로 오판하는 사례도 있음

> [!IMPORTANT]
> 지금 학술계의 진짜 위험은 AI 사용 자체보다, AI 사용 규모를 재는 기준이 흔들리는 상태에서 품질 관리 결정을 내려야 한다는 점임.

- 펜실베이니아대 연구팀은 한 학술지의 투고 논문 초록 약 7000건과 동료심사 보고서 약 8000건을 분석함
  - 분석 기간은 2021년 1월부터 2026년 2월까지였고, AI 탐지에는 팡그램 랩스 도구를 사용함
  - 2022년 11월 챗GPT 출시 뒤 투고 건수는 42% 증가함
  - 2026년 2월 기준, AI 생성 텍스트 비율이 70%를 넘는 투고 논문은 2024년 초보다 2배 이상 늘었음
  - 동료심사 보고서도 30% 이상에서 AI 생성 텍스트가 확인됨

- 생의학 쪽에서도 비슷한 신호가 잡힘
  - 싱가포르 난양공대 리처드 셰 연구원은 사이언스, 네이처, 셀 등에 2025년 게재된 생의학 논문 약 5000편을 검사함
  - 6편은 완전한 AI 작성으로 분류됐고, 8편 중 1편에는 AI 생성 텍스트가 일부 포함된 것으로 나타남
  - 다만 이 결과도 탐지 도구의 한계를 전제로 봐야 함

- 컴퓨터과학 분야는 증가세가 더 노골적임
  - 아카이브(arXiv)에 공개된 연구는 2020~2025년 원고 12만4000여 건을 두 가지 AI 탐지 방식으로 분석함
  - 컴퓨터과학 리뷰 논문 중 AI 생성 텍스트 포함 비율은 2023년 7%에서 2025년 43%로 상승함
  - 비리뷰 원고도 같은 기간 3%에서 23%로 늘었음
  - 이 연구도 전면 AI 작성과 부분 AI 생성을 구분하지 않았고, 논문 품질 자체를 평가한 건 아님

- 워터마킹은 대안으로 떠오르고 있지만, 이것도 만능키는 아님
  - 국제머신러닝학회(ICML)는 워터마킹 기술로 동료심사 보고서의 AI 생성 텍스트를 탐지해 논문 497편을 반려함
  - 다만 워터마킹은 모델과 플랫폼이 협조해야 효과가 커서, 모든 AI 생성 텍스트를 포괄하기는 어려움

- 결국 학술계는 “AI 활용”과 “AI 악용”을 구분하는 싸움에 들어간 셈임
  - AI는 연구 속도를 높이고 글쓰기 장벽을 낮출 수 있음
  - 동시에 저품질 논문, 날조 연구, 무성의한 심사 보고서를 대량으로 밀어 넣는 도구가 될 수도 있음
  - 연구자들은 AI 모델이 발전할수록 사람 글처럼 위장하는 능력도 좋아져서 탐지기 역시 계속 정교해져야 한다고 봄

---

## 기술 맥락

- 여기서 핵심 선택은 “AI 사용 여부”를 금지하느냐가 아니라, 학술 품질 관리에서 어떤 신호를 믿을지 정하는 문제예요. 탐지기 점수만 믿으면 사람이 쓴 글도 AI로 몰릴 수 있고, 반대로 잘 다듬어진 AI 글은 빠져나갈 수 있거든요.

- AI detection은 빠르게 적용할 수 있다는 장점이 있지만, 기준값이 없으면 운영 정책으로 쓰기 애매해요. 전면 생성, 부분 보강, 문법 교정이 모두 다른 행위인데 같은 점수로 묶이면 실제 심사 판단을 왜곡할 수 있어요.

- 워터마킹은 생성 단계에서 식별 신호를 심는 방식이라 사후 탐지보다 깔끔해 보이지만, 모든 모델과 서비스가 같은 방식으로 협조해야 의미가 커져요. ICML처럼 특정 제출 흐름 안에서는 효과가 나지만, 오픈 웹 전체를 커버하기는 어렵다는 얘기예요.

- 개발자 관점에서는 로그, 감사 추적, 출처 검증 같은 기본기가 다시 중요해지는 흐름으로 볼 수 있어요. AI가 만든 결과물을 쓰는 시스템일수록 “누가, 언제, 어떤 모델로, 얼마나 개입했는지”를 남겨야 나중에 품질과 책임을 따질 수 있거든요.

## 핵심 포인트

- 챗GPT 출시 이후 한 학술지의 투고 건수는 42% 늘었고, 동료심사 보고서 30% 이상에서 AI 생성 텍스트가 감지됐다
- 컴퓨터과학 리뷰 논문에서 AI 생성 텍스트 포함 비율은 2023년 7%에서 2025년 43%로 뛰었다
- 국제머신러닝학회는 워터마킹으로 AI 생성 심사 보고서를 잡아 논문 497편을 반려했다
- AI 탐지기는 기준이 제각각이라 인간 글을 AI 글로 오판하거나, 부분 편집과 전면 생성을 구분하지 못한다

## 인사이트

핵심은 “AI를 쓰면 안 된다”가 아니라, 학술 품질 관리 시스템이 AI 사용 규모와 방식 자체를 아직 제대로 못 재고 있다는 점이다. 개발자 입장에선 탐지기 점수 하나로 신뢰를 판단하는 시스템이 얼마나 쉽게 흔들리는지 보여주는 꽤 현실적인 사례다.