---
title: "생성형 AI는 학생을 똑똑하게도, 게으르게도 만든다"
published: 2026-06-06T19:05:01.419Z
canonical: https://jeff.news/article/3787
---
# 생성형 AI는 학생을 똑똑하게도, 게으르게도 만든다

생성형 인공지능이 고등교육에서 비판적 사고와 창의적 사고를 키울 수도 있지만, 수업 설계가 없으면 학생이 생각을 도구에 떠넘기는 결과로 이어질 수 있다는 체계적 문헌고찰이 나왔다. 연구진은 2022년부터 2025년 4월까지의 실증 연구 67편을 분석해, 생성형 인공지능의 효과가 도구 자체보다 과제 설계·학습 지원·인공지능 리터러시에 달려 있다고 봤다. 국내 대학과 교육 현장에도 ‘사용 금지냐 허용이냐’보다 ‘어떻게 쓰게 만들 것인가’가 더 중요한 질문이 됐다.

## 생성형 인공지능은 도구 문제가 아니라 설계 문제였음

- 생성형 인공지능이 학생 사고력을 키우느냐 망치느냐는, 도구 자체보다 수업 설계에 더 크게 좌우된다는 연구가 나옴
  - 베이징공과대학교, 칭화대학교, 아이오와주립대학교 연구진이 2022년부터 2025년 4월까지 발표된 실증 연구 67편을 체계적으로 분석함
  - 국제 문헌고찰 지침인 프리즈마(PRISMA)를 따랐고, 논문은 `Computers and Education: Artificial Intelligence`에 실림
  - 핵심 결론은 꽤 간단함: 잘 설계하면 사고 파트너, 그냥 풀어두면 생각 대행기임

- 연구진은 사고를 두 갈래로 나눠 봄
  - 비판적 사고는 근거를 따지고, 오류를 찾고, 판단을 검증하는 수렴적 사고에 가까움
  - 창의적 사고는 아이디어를 만들고, 확장하고, 다른 관점을 탐색하는 발산적 사고에 가까움
  - 생성형 인공지능은 이 둘을 동시에 도울 수도 있지만, 한쪽만 키우거나 둘 다 깎아먹을 수도 있음

> [!IMPORTANT]
> 분석 대상은 최종 67개 실증 연구였고, 그중 2024년 논문이 39건으로 58%, 2025년 4월까지의 논문이 21건으로 31%였음. 거의 실시간으로 변하는 주제라, 지금 교육 현장이 바로 참고할 만한 데이터임.

## 비판적 사고는 ‘질문 설계’가 있으면 좋아짐

- 비판적 사고 관련 56개 연구에서 가장 자주 나온 장점은 메타인지 참여였음
  - 자기 생각 과정을 반성하고 조절하는 효과가 27건에서 보고됨
  - 학생이 자기 결과물과 생성형 인공지능 결과물을 비교하면, “내가 왜 이렇게 판단했지?”를 반복해서 보게 됨
  - 그냥 답을 받는 게 아니라 차이를 검토하게 만들 때 사고가 살아남는 셈임

- 논증 추론도 꽤 강하게 좋아졌음
  - 22건에서 주장 구성, 증거 통합, 논리 정교화가 개선됐다고 나옴
  - 특히 글쓰기나 토론 과제에서 생성형 인공지능이 반론 생성기나 대화 파트너로 쓰일 때 효과가 컸음
  - 루브릭 기반 평가와 논증 지도까지 붙이면 학생 추론이 더 정교해졌다는 결과가 있음

- 오류 탐지와 검증 행동은 이공계와 학제간 과제에서 잘 드러남
  - 19건에서 학생들이 인공지능 생성 콘텐츠를 사실 확인과 삼각 검증의 대상으로 삼았음
  - 환각이나 불일치를 찾도록 명시적으로 가르친 경우 이 효과가 더 강해짐
  - 이건 개발자 입장에서도 익숙한 패턴임: 자동 생성 코드를 믿는 게 아니라 테스트와 리뷰 대상으로 보는 순간 도구 가치가 확 올라감

## 그런데 풀어두면 바로 ‘생각 외주’가 됨

- 가장 흔한 위험은 인지적 오프로딩, 쉽게 말해 생각을 인공지능에 떠넘기는 현상이었음
  - 21건에서 과도한 의존과 독립적 분석 동기 감소가 보고됨
  - 초보 사용자, 비원어민, 학문적 글쓰기나 인공지능 리터러시가 부족한 학생에게서 특히 두드러짐
  - 도구가 친절할수록 사람이 덜 생각하는 역설이 여기서 터짐

- 피상적 사용도 반복적으로 확인됨
  - 18건에서 학생들이 인공지능 출력물을 비판 없이 받아들이는 경향을 보임
  - 요약, 에세이, 콘텐츠 생성 과제처럼 결과물이 빨리 나오는 과제에서 얕은 상호작용이 특히 많았음
  - 논리적 근거 발달 저하도 14건에서 관찰됐는데, 과제 완수가 쉬워진 대신 머리를 쥐어짜는 과정이 사라진 게 문제였음

- 여러 단계 글쓰기 과제에서는 메타인지적 오프로딩도 나타남
  - 12건에서 학생들이 피드백과 수정까지 인공지능에 맡기면서 더 깊은 계획이나 평가적 반성에 참여하지 못함
  - 연구진은 모델이 논리 일관성 유지, 가정에 도전하기, 소크라테스식 대화 지속 같은 고급 추론에서도 한계를 보인다고 지적함

## 창의성은 잘 밀어주지만, 개성도 같이 깎일 수 있음

- 창의적 사고 관련 44개 연구에서 가장 많이 나온 장점은 아이디어 생성과 확장 지원이었음
  - 31건에서 글쓰기 초기 단계, 프로젝트 계획, 이야기 구성에 도움이 됐다고 보고됨
  - 학생들은 생성형 인공지능을 브레인스토밍 파트너처럼 쓰며 대안적 관점과 새로운 통찰을 얻었다고 평가함
  - 창의적 결과물의 구조화와 정교화도 24건에서 장점으로 잡힘

- 특히 외국어 글쓰기나 표현 과제에서는 진입 장벽을 낮춰줌
  - 영어를 외국어로 배우는 학생들은 단락 흐름, 문체 변형, 일관성 개선에 생성형 인공지능을 활용함
  - 16건에서는 창의적 불안이 줄고, 복잡한 과제를 시작하려는 동기가 올라갔다고 나옴
  - 빈 화면 앞에서 막히는 사람에게 초안 파트너가 생기는 효과는 확실히 있음

- 반대로 창의적 수동성도 만만치 않게 나옴
  - 20건에서 학생들이 독창적 아이디어를 탐색하기보다 인공지능 생성 콘텐츠에 기대는 기본값을 택함
  - 15건에서는 개인적 목소리와 정서적 개성이 약해졌다는 한계가 보고됨
  - 자기 이야기나 표현적 글쓰기가 필요한 과제에서 인공지능 문장은 매끈하지만 감정의 결이 빠지는 문제가 생김

## 잘 설계하면 둘 다 오르고, 대충 쓰면 둘 다 내려감

- 연구진은 비판적 사고와 창의적 사고가 함께 나타나는 패턴을 세 가지로 정리함
  - 상승적 강화는 18건에서 나왔고, 탐구 기반·프로젝트 기반·반복 학습처럼 설계가 촘촘한 환경에서 발생함
  - 비대칭적 향상은 8건에서 나왔는데, 창의적 아이디어 생성은 좋아지지만 비판적 사고는 약해지는 패턴임
  - 동시 인지 저하는 4건에서 확인됐고, 최소한의 안내나 비판적 틀 없이 생성형 인공지능을 쓴 환경에서 나타남

- 전 세계 2만 3000명 이상 학생을 대상으로 한 조사도 언급됨
  - 학생들은 생성형 인공지능의 효율성과 요약 능력은 높게 평가함
  - 하지만 깊이 있는 사고를 키우는 효과는 사실상 낮게 봤고, 표면적 참여와 학문적 부정행위와의 연관성도 지적됨
  - “빨리 끝내는 능력”과 “더 잘 생각하는 능력”은 다르다는 얘기임

## 현장에서 쓸 전략은 꽤 구체적임

- 연구진은 생성형 인공지능을 수업에 넣을 때 단계적 학습 지원을 박아 넣으라고 제안함
  - 예를 들어 글쓰기 과제라면 먼저 인공지능으로 개요를 만들고, 평가 기준으로 구조를 비판하고, 인공지능과 동료 피드백을 바탕으로 수정하는 순환을 설계함
  - 이러면 학생의 생각 과정이 밖으로 드러나고, 결과물을 평가하는 깊이도 생김

- 인공지능 리터러시는 선택 과목 느낌으로 둘 문제가 아님
  - 프롬프트 정교화, 환각 인식, 편향 탐지, 맥락에 맞는 해석을 커리큘럼에 넣어야 한다고 봄
  - “이 답이 맞나?”를 묻는 습관을 가르치지 않으면, 도구는 곧바로 복붙 기계가 됨

- 피드백 생태계도 인공지능 하나로 끝내면 안 됨
  - 연구진은 인공지능 피드백, 동료 검토, 교수 입력, 자기 평가가 함께 있을 때 인지 성장이 최적화된다고 봄
  - 학생이 자기 주장을 문서화하고 독립적 출처로 검증하게 만드는 요구가 필요함
  - 이건 교육 얘기지만, 개발팀 코드 리뷰와도 거의 같은 원리임

---

## 기술 맥락

- 이 연구의 핵심 선택은 생성형 인공지능을 ‘허용할까 말까’가 아니라, 어떤 과제 구조 안에 넣을지를 본 거예요. 왜냐하면 같은 도구라도 루브릭, 성찰 질문, 검증 요구가 붙으면 사고 파트너가 되고, 없으면 답안 생성기로 흘러가기 쉽거든요.

- 비판적 사고와 창의적 사고를 나눠 본 것도 중요해요. 생성형 인공지능은 아이디어를 많이 뽑아내는 데는 강하지만, 그 아이디어가 왜 맞는지 따지고 반례를 검토하는 능력까지 자동으로 키워주지는 않아요. 그래서 창의성 점수만 보고 교육 효과가 좋다고 말하면 반쪽짜리 결론이 돼요.

- 개발자에게도 이 얘기는 꽤 직접적이에요. 코드 생성 도구를 쓸 때 테스트, 리뷰 기준, 설계 근거 작성이 같이 붙으면 생산성이 올라가지만, 그냥 돌아가는 코드만 받으면 시스템 이해가 빠질 수 있어요. 교육 현장의 스캐폴드는 개발팀에서는 테스트 케이스, 코드 리뷰, 설계 문서 같은 장치로 바꿔 읽을 수 있어요.

- 연구 한계도 같이 봐야 해요. 분석 대상은 영어권 동료 검토 논문이고, 도구 버전도 계속 바뀌고 있어요. 그래서 원인과 결과를 딱 잘라 확정했다기보다는, 지금까지의 실증 연구에서 반복적으로 보이는 위험과 설계 패턴을 정리한 결과로 보는 게 맞아요.

## 핵심 포인트

- 연구진은 생성형 인공지능 관련 실증 연구 67편을 분석했고, 비판적 사고 연구 56건과 창의적 사고 연구 44건의 패턴을 나눠 살폈다.
- 구조화된 질문, 평가 기준, 성찰 활동이 있을 때 생성형 인공지능은 메타인지·논증·아이디어 생성을 돕는 대화 파트너가 됐다.
- 안내 없이 자유롭게 쓰게 하면 인지적 오프로딩, 피상적 사용, 논리적 근거 약화, 창의적 수동성이 반복적으로 관찰됐다.

## 인사이트

이 기사는 개발자에게도 그대로 적용된다. 코딩에서 생성형 인공지능을 쓰는 방식도 교육 현장과 똑같아서, 검증 루프와 기준 없이 쓰면 속도는 빨라져도 사고력과 설계력이 빠질 수 있다.
