본문으로 건너뛰기
피드

AI가 논문과 심사평까지 쓰는 시대, 문제는 탐지 기준이 엉망이라는 것

ai-ml 약 6분

학술계에서 AI가 쓴 논문 초록과 동료심사 보고서가 빠르게 늘고 있지만, 이를 제대로 측정할 기준과 도구는 아직 불안정하다. 네이처가 소개한 여러 연구는 챗GPT 이후 투고량과 AI 생성 텍스트 비율이 크게 뛰었다는 신호를 보여주지만, 전면 생성과 부분 보강을 구분하지 못하는 한계도 같이 드러낸다.

  • 1

    챗GPT 출시 이후 한 학술지의 투고 건수는 42% 늘었고, 동료심사 보고서 30% 이상에서 AI 생성 텍스트가 감지됐다

  • 2

    컴퓨터과학 리뷰 논문에서 AI 생성 텍스트 포함 비율은 2023년 7%에서 2025년 43%로 뛰었다

  • 3

    국제머신러닝학회는 워터마킹으로 AI 생성 심사 보고서를 잡아 논문 497편을 반려했다

  • 4

    AI 탐지기는 기준이 제각각이라 인간 글을 AI 글로 오판하거나, 부분 편집과 전면 생성을 구분하지 못한다

  • AI가 논문만 쓰는 게 아니라 동료심사 보고서까지 꽤 깊게 들어온 정황이 나옴

    • 네이처가 소개한 여러 연구에 따르면, 챗GPT 출시 이후 학술 투고와 심사 과정에서 AI 생성 텍스트 비율이 빠르게 늘고 있음
    • 미국 그래파이트가 3월 말 새 웹페이지 5만5000개를 분석했더니, 장르를 가리지 않고 AI가 쓴 글이 사람 글보다 많았다는 결과도 나옴
  • 문제는 “얼마나 AI가 썼냐”를 재는 도구가 아직 믿기 어렵다는 것

    • 일부 AI 탐지 도구는 AI가 전체를 쓴 글과 사람이 쓴 글을 AI가 조금 다듬은 글을 제대로 구분하지 못함
    • 시스템마다 “AI 생성” 기준이 달라서, 인간이 쓴 텍스트를 AI 생성으로 오판하는 사례도 있음

중요

> 지금 학술계의 진짜 위험은 AI 사용 자체보다, AI 사용 규모를 재는 기준이 흔들리는 상태에서 품질 관리 결정을 내려야 한다는 점임.

  • 펜실베이니아대 연구팀은 한 학술지의 투고 논문 초록 약 7000건과 동료심사 보고서 약 8000건을 분석함

    • 분석 기간은 2021년 1월부터 2026년 2월까지였고, AI 탐지에는 팡그램 랩스 도구를 사용함
    • 2022년 11월 챗GPT 출시 뒤 투고 건수는 42% 증가함
    • 2026년 2월 기준, AI 생성 텍스트 비율이 70%를 넘는 투고 논문은 2024년 초보다 2배 이상 늘었음
    • 동료심사 보고서도 30% 이상에서 AI 생성 텍스트가 확인됨
  • 생의학 쪽에서도 비슷한 신호가 잡힘

    • 싱가포르 난양공대 리처드 셰 연구원은 사이언스, 네이처, 셀 등에 2025년 게재된 생의학 논문 약 5000편을 검사함
    • 6편은 완전한 AI 작성으로 분류됐고, 8편 중 1편에는 AI 생성 텍스트가 일부 포함된 것으로 나타남
    • 다만 이 결과도 탐지 도구의 한계를 전제로 봐야 함
  • 컴퓨터과학 분야는 증가세가 더 노골적임

    • 아카이브(arXiv)에 공개된 연구는 2020~2025년 원고 12만4000여 건을 두 가지 AI 탐지 방식으로 분석함
    • 컴퓨터과학 리뷰 논문 중 AI 생성 텍스트 포함 비율은 2023년 7%에서 2025년 43%로 상승함
    • 비리뷰 원고도 같은 기간 3%에서 23%로 늘었음
    • 이 연구도 전면 AI 작성과 부분 AI 생성을 구분하지 않았고, 논문 품질 자체를 평가한 건 아님
  • 워터마킹은 대안으로 떠오르고 있지만, 이것도 만능키는 아님

    • 국제머신러닝학회(ICML)는 워터마킹 기술로 동료심사 보고서의 AI 생성 텍스트를 탐지해 논문 497편을 반려함
    • 다만 워터마킹은 모델과 플랫폼이 협조해야 효과가 커서, 모든 AI 생성 텍스트를 포괄하기는 어려움
  • 결국 학술계는 “AI 활용”과 “AI 악용”을 구분하는 싸움에 들어간 셈임

    • AI는 연구 속도를 높이고 글쓰기 장벽을 낮출 수 있음
    • 동시에 저품질 논문, 날조 연구, 무성의한 심사 보고서를 대량으로 밀어 넣는 도구가 될 수도 있음
    • 연구자들은 AI 모델이 발전할수록 사람 글처럼 위장하는 능력도 좋아져서 탐지기 역시 계속 정교해져야 한다고 봄

기술 맥락

  • 여기서 핵심 선택은 “AI 사용 여부”를 금지하느냐가 아니라, 학술 품질 관리에서 어떤 신호를 믿을지 정하는 문제예요. 탐지기 점수만 믿으면 사람이 쓴 글도 AI로 몰릴 수 있고, 반대로 잘 다듬어진 AI 글은 빠져나갈 수 있거든요.

  • AI detection은 빠르게 적용할 수 있다는 장점이 있지만, 기준값이 없으면 운영 정책으로 쓰기 애매해요. 전면 생성, 부분 보강, 문법 교정이 모두 다른 행위인데 같은 점수로 묶이면 실제 심사 판단을 왜곡할 수 있어요.

  • 워터마킹은 생성 단계에서 식별 신호를 심는 방식이라 사후 탐지보다 깔끔해 보이지만, 모든 모델과 서비스가 같은 방식으로 협조해야 의미가 커져요. ICML처럼 특정 제출 흐름 안에서는 효과가 나지만, 오픈 웹 전체를 커버하기는 어렵다는 얘기예요.

  • 개발자 관점에서는 로그, 감사 추적, 출처 검증 같은 기본기가 다시 중요해지는 흐름으로 볼 수 있어요. AI가 만든 결과물을 쓰는 시스템일수록 “누가, 언제, 어떤 모델로, 얼마나 개입했는지”를 남겨야 나중에 품질과 책임을 따질 수 있거든요.

핵심은 “AI를 쓰면 안 된다”가 아니라, 학술 품질 관리 시스템이 AI 사용 규모와 방식 자체를 아직 제대로 못 재고 있다는 점이다. 개발자 입장에선 탐지기 점수 하나로 신뢰를 판단하는 시스템이 얼마나 쉽게 흔들리는지 보여주는 꽤 현실적인 사례다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

직장에서 AI로 ‘일하는 척’이 쉬워졌다는 불편한 얘기

이 글은 생성형 AI가 생산성을 올리는 도구인 동시에, 전문성 없는 사람이 전문적인 산출물을 흉내 내게 만드는 도구가 됐다고 비판해. 특히 문제는 초보자가 더 빨라지는 수준이 아니라, 아예 훈련받지 않은 분야의 결과물을 그럴듯하게 만들어 조직 안에서 검증 없이 굴러가게 만드는 데 있다고 짚어.

ai-ml

AI 상담에 마음을 맡기는 사람들, 편하긴 한데 진짜 괜찮을까

AI 챗봇을 상담사처럼 쓰는 사람들이 늘고 있지만, 전문가들은 정서적 의존과 판단 외주화가 보이지 않는 위험을 만든다고 본다. 실제 실험에서는 AI가 즉각적인 위로와 명확한 답을 주는 데 강했지만, 인간 상담사는 질문을 통해 내담자가 자기 맥락을 더 깊게 보게 만들었다.

ai-ml

국내 의료 AI, 학회장에서 ‘실제 임상 데이터’로 존재감 키웠다

국내 의료 AI 기업들이 학회 시즌을 맞아 중환자 예측, 심전도 분석, 치매 치료제 부작용 모니터링 등 실제 임상 적용 사례를 공개했다. 핵심은 기술 데모가 아니라 병원 EMR 데이터와 임상 근거를 바탕으로 의료진 업무 부담과 환자 안전 문제를 해결한다는 점이다.

ai-ml

미국 기술업계 해고 40% 증가, AI가 화이트칼라 조직을 다시 짜고 있다

월스트리트저널은 AI 확산이 미국 기술업계의 구조조정을 가속하고 있다고 보도했다. 미국 전체 해고는 전년 대비 줄었지만, 기술 분야 해고는 1분기에 40% 늘었고 기업들은 중간관리와 반복 업무를 줄이는 방향으로 움직이고 있다.

ai-ml

광주AI사관학교 7기 시작, 8개월짜리 실전형 고급 과정으로 갈아엎었다

광주인공지능사관학교가 7기 교육생 220명과 함께 8개월 교육에 들어갔다. 올해는 교육 체계와 지원 구조를 바꿔 AI 모델 기획, 개발, 검증, 사업화까지 한 번에 경험하는 실전형 고급 과정으로 운영된다.