본문으로 건너뛰기
피드

의료 AI가 의사의 실력을 깎아먹을 수 있다는 불편한 신호

ai-ml 약 11분
vote
0
댓글
북마크

의료 AI는 정확도만 높이면 끝나는 문제가 아니라, 의사가 AI 없이도 독립적으로 판단할 수 있는지를 같이 봐야 한다는 글이다. 대장내시경, 영상의학, 정형외과 MRI, GPT-4 진단 연구를 엮어 자동화 편향과 역량 퇴화 위험을 짚는다.

  • 1

    폴란드 대장내시경 연구에서 AI 도입 후 AI 없이 시행한 검사 선종 탐지율이 28.4%에서 22.4%로 하락했다

  • 2

    AI가 틀린 답을 줄 때 숙련 전문의도 그 방향으로 끌려갈 수 있다는 자동화 편향이 여러 연구에서 확인됐다

  • 3

    GPT-4는 단독 진단 추론 점수가 92%였지만, 의사가 함께 썼을 때 점수는 74%에서 76%로 거의 오르지 않았다

  • 4

    의료 AI 도입은 제품 성능뿐 아니라 수련, 사용자 교육, 오류 대응, 사용 로그 모니터링까지 포함해 설계돼야 한다

의료 AI의 진짜 질문은 정확도가 아니라 ‘의사가 계속 판단할 수 있나’임

  • 폴란드 대장내시경 연구에서 꽤 찜찜한 신호가 나왔음

    • 경험 많은 내시경 전문의 19명은 모두 누적 시술 2,000건 이상인 숙련자였음
    • AI 보조 용종 탐지 시스템 도입 전 3개월 795건과 도입 후 3개월 648건을 비교했는데, 비교 대상은 둘 다 AI 없이 시행한 검사였음
    • 선종 탐지율이 AI 도입 전 28.4%에서 도입 후 22.4%로 떨어짐
    • 절대 하락은 6.0%포인트, 상대 하락은 20%, p값은 0.0089였음
  • 이 연구가 곧바로 “AI 때문에 의사 실력이 떨어졌다”를 증명하는 건 아님

    • 후향적 관찰 연구라서 환자 구성, 계절성 같은 교란 요인을 완전히 제거하진 못함
    • 그래도 Lancet 논평은 이걸 자동화가 유발한 역량 퇴화의 첫 실증 신호로 평가했음
    • 포인트는 확정 판결이 아니라 “이거 그냥 넘기면 안 되는 신호가 떴다”는 쪽임

중요

> AI 보조 시술이 잘 되는지만 보면 반쪽짜리 평가임. 진짜 중요한 건 AI가 꺼졌을 때 전문가가 여전히 자기 실력을 유지하느냐임.

AI가 틀리면 사람도 같이 끌려간다

  • 영상의학 연구에서도 자동화 편향이 꽤 뚜렷하게 보였음

    • 2024년 Nature Medicine 연구는 영상의학과 전문의 140명에게 흉부 X-ray 15건을 AI 없이, 또는 AI 보조로 판독하게 했음
    • AI가 정확할 때는 일부 성과가 좋아졌지만, AI가 틀렸을 때는 전문의 판단도 그 잘못된 방향으로 흔들렸음
    • 경력, 세부 전공, AI 친숙도가 이런 영향을 충분히 막아주지도 못했음
  • 정형외과 MRI 연구는 숫자가 더 직관적임

    • 전방십자인대(ACL) 파열 MRI 진단에서 AI 보조 시 정확도는 87.2%에서 96.4%로 올라감
    • 그런데 AI 보조 상태에서 발생한 오류의 45.5%는 AI의 잘못된 출력을 그대로 받아들인 자동화 편향이었음
    • 연구진이 제안한 AI suppression 전략은 오류 가능성이 높은 AI 출력을 선별적으로 막아 자동화 편향을 41.7% 줄였음
  • “숙련자니까 괜찮겠지”가 별로 안 통한다는 게 핵심임

    • 흉부 X-ray 연구에서는 잘못된 조언의 출처가 AI든 인간 전문가든 의사 정확도가 낮아졌음
    • 특히 자기 전문 영역이 아닌 과제에서는 AI 조언을 더 신뢰하는 경향도 관찰됐음
    • 결국 안전성은 모델 평균 정확도만이 아니라, 모델이 틀렸을 때 사람이 오류를 회복할 수 있느냐까지 포함해야 함

GPT-4는 잘했는데, 의사는 그걸 못 끌어다 썼다

  • 2024년 JAMA Network Open 연구는 진단 추론에서 꽤 당황스러운 결과를 보여줌

    • 의사 혼자 기존 자원으로 진단했을 때 점수는 74%였음
    • 의사가 GPT-4와 함께 진단했을 때는 76%였고, 차이는 통계적으로 유의하지 않았음
    • GPT-4 단독 점수는 92%였고, 의사 단독보다 18%포인트 높았음
  • 이게 무서운 이유는 “AI가 멍청해서 도움이 안 됐다”가 아니기 때문임

    • GPT-4는 혼자서는 꽤 좋은 진단 추론을 했음
    • 그런데 의사가 GPT-4를 쓸 수 있었는데도 그 성능이 의사의 최종 판단으로 거의 흘러들어가지 않았음
    • 좋은 답을 생성하는 능력과, 사람이 그 답을 이해하고 자기 판단에 통합하는 능력은 완전히 다른 문제였던 셈임
  • 반대로 치료 관리 추론에서는 GPT-4 보조 효과가 나왔음

    • 2025년 Nature Medicine 후속 연구에서 의사 92명이 GPT-4를 치료 관리 판단에 쓰자 점수가 6.5%포인트 유의하게 향상됐음
    • 같은 연구팀, 같은 기관, 같은 AI 도구였는데 과제 성격만 달랐음
    • 진단은 정답을 고르는 분류 작업에 가깝고, 치료 관리는 여러 선택지를 놓고 절충하는 작업에 가까움
  • 이 차이가 의료 AI 제품 설계에 꽤 중요함

    • 분류 작업에서는 AI 답을 받아들일지 말지 판단해야 해서, 의사의 기존 직관과 AI 출력이 충돌할 수 있음
    • 절충 작업에서는 AI가 의사가 놓친 선택지를 추가해 판단의 폭을 넓힐 수 있음
    • 그래서 “AI가 도움이 되냐”가 아니라 “어떤 임상 과제에서 어떤 방식으로 도와주냐”를 따져야 함

교육만으로 자동화 편향을 막을 수 있을까

  • AI 리터러시 교육을 받았다고 자동화 편향이 사라지진 않았음

    • 2026년 NEJM AI에 실린 연구에서 의사 44명은 20시간 AI 리터러시 교육을 받은 뒤 ChatGPT-4o 기반 진단 추천을 받았음
    • 오류 없는 추천을 받은 그룹의 평균 진단 추론 정확도는 84.9%였음
    • 의도적 오류가 섞인 추천을 받은 그룹은 73.3%였고, 조정 평균 차이는 -14.0%포인트였음
  • 더 찜찜한 건 AI 사용이 강제가 아니었다는 점임

    • 의사들은 추천을 참고하지 않을 자유가 있었음
    • 그런데 두 그룹 모두 약 3분의 2 수준에서 자발적으로 AI 추천을 참조했음
    • 그럴듯하고 권위 있어 보이는 LLM 출력은 사용자가 선택적으로 쓰는 상황에서도 판단을 흔들 수 있음
  • 의대생 대상 연구도 비슷한 경고를 줌

    • 2026년 npj Digital Medicine 연구에서 의대생 111명에게 정확한 AI 설명과 오도하는 AI 설명을 비교했음
    • 오도하는 AI 설명은 진단 정확도를 유의하게 낮췄지만, 정확한 AI 설명은 설명 없는 대조군 대비 유의한 향상을 만들지 못했음
    • 초보 학습자에게는 AI가 주는 이득보다 그럴듯한 오답의 피해가 더 클 수 있다는 얘기임

⚠️주의

> “AI 한계와 프롬프트를 교육하면 되겠지” 정도로는 부족함. 실제 과제 앞에서 AI의 그럴듯한 오답을 거부하는 훈련은 별개의 역량임.

수련의에게는 de-skilling보다 never-skilling이 더 큰 문제일 수 있음

  • 숙련 의사는 기존 역량이 약해지는 de-skilling을 걱정하지만, 수련의는 아예 기본 역량이 형성되지 않는 never-skilling 위험이 있음

    • 감별진단, 판독, 처방 검토, 기록 작성의 시작점을 AI가 계속 제공하면 독립적으로 문제를 구조화하는 연습이 줄어듦
    • 이 경우 AI가 꺼졌을 때 “예전 실력으로 돌아가지 못한다”가 아니라 “처음부터 기준점이 충분히 안 만들어졌다”가 될 수 있음
  • 감별진단을 AI에게 만들게 하는 건 단순한 편의 기능이 아님

    • 감별진단은 환자 증상과 검사 소견에서 가능한 질환을 떠올리고 비교하며 다음 검사를 정하는 임상 추론의 기본 훈련임
    • 수련 단계에서 이걸 AI가 먼저 해버리면, 수련의가 반복해야 할 사고 과정 일부가 생략될 수 있음
    • 그래서 앞으로는 AI 없이 판단하는 기본 역량과 AI 출력을 비판적으로 검토하는 역량을 따로 평가해야 함

그래서 AI를 쓰지 말자는 얘기는 아님

  • 계산기처럼 역할 재편이 일어날 수 있다는 반론은 타당함

    • 반복적 패턴 인식이나 단순 정보 검색은 AI에 맡기고, 의사는 복잡한 의사결정과 환자 소통에 집중할 수 있음
    • 실제로 일부 연구에서는 AI 보조가 오류를 줄이고 평가자 간 일치도를 높인 사례도 있음
    • 문제는 어떤 역량을 넘겨도 되고, 어떤 역량은 끝까지 보존해야 하는지 기준이 아직 충분히 정리되지 않았다는 점임
  • 좋은 설계로 위험을 낮출 여지도 있음

    • AI를 항상 먼저 보여주는 방식은 자동화 편향을 키울 수 있음
    • 필요할 때만 켜는 on-demand 방식, 사람이 먼저 판단한 뒤 AI를 보여주는 sequential reveal 방식, 위험 출력 차단 같은 설계가 대안이 될 수 있음
    • 하지만 실제 도입 현장에서는 효율, 비용, 속도, 편의성이 더 크게 작동할 가능성이 큼
  • 한국 의료 AI 거버넌스에도 바로 연결되는 이슈임

    • 식약처 인허가는 제품 성능과 안전성을 보되, 실제 병원 배치에서는 사용자 교육, 오류 대응 절차, AI 사용 로그, 성과 모니터링까지 같이 설계돼야 함
    • 전문학회와 수련기관은 AI 없는 기본 역량과 AI 활용 역량을 모두 평가하는 기준을 마련해야 함
    • 의료 AI의 핵심 질문은 “AI가 얼마나 정확한가”가 아니라 “AI와 함께 일할 때 의사의 판단이 실제로 좋아지는가”임

기술 맥락

  • 이 글의 핵심 선택지는 의료 AI를 단순한 판독 보조 도구로 볼지, 사람의 판단 루틴까지 바꾸는 사회기술 시스템으로 볼지예요. 후자로 봐야 하는 이유는 AI 출력이 단순 추천에 그치지 않고 의사의 주의, 감별진단, 오류 검증 순서까지 바꾸기 때문이에요.

  • 진단 추론과 치료 관리 추론을 나눠 봐야 하는 이유도 여기 있어요. 진단은 정답 후보를 고르는 분류 작업이라 AI 답을 받아들일지 거부할지의 압력이 커요. 반면 치료 관리는 여러 합리적 선택지를 비교하는 절충 작업이라 AI가 선택지 풀을 넓혀주는 방식으로 도움이 될 수 있거든요.

  • 제품 설계 관점에서는 평균 정확도 하나로는 부족해요. AI가 틀렸을 때 사용자가 얼마나 자주 따라가는지, 사람이 먼저 판단한 뒤 AI를 보게 했을 때 결과가 달라지는지, 위험한 출력은 차단할 수 있는지 같은 운영 지표가 같이 필요해요.

  • 수련 환경에서는 더 민감해요. 이미 훈련된 전문의에게 AI는 보조 도구일 수 있지만, 처음 배우는 수련의에게 AI는 사고의 출발점이 될 수 있거든요. 그래서 AI를 잘 쓰는 능력과 AI 없이 판단하는 능력을 분리해서 평가해야 하는 이유가 생겨요.

개발자 관점에서도 꽤 센 이야기다. 모델 성능 벤치마크만 보고 배포하면 되는 게 아니라, 사람이 그 출력을 어떻게 받아들이고 실력을 유지하는지까지 시스템 요구사항으로 봐야 한다는 얘기라서 의료 밖 AI 제품에도 그대로刺힌다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI가 많이 말하는 사람의 세계관을 ‘진실’로 굳힐 수 있다는 경고

아세모글루 연구팀의 논문을 바탕으로, AI가 인터넷의 지식을 모으고 다시 인터넷에 퍼뜨리는 과정에서 사회적 편향이 강화될 수 있다는 내용을 다룬 기사다. 빠른 업데이트, 데이터 불균형, 단일 거대 AI의 구조적 한계를 짚고 전문화된 로컬 AI가 더 나은 대안이 될 수 있다고 설명한다.

ai-ml

마이크론까지 시총 1조 달러, AI 메모리 랠리는 거품일까 구조 변화일까

마이크론, 삼성전자, SK하이닉스가 AI 메모리 수요 기대감으로 급등하면서 미국에서도 AI 거품 논쟁이 다시 붙었다. 핵심은 고대역폭메모리(HBM)와 장기공급계약이 메모리 산업의 악명 높은 사이클을 진짜로 바꿨는지, 아니면 하이퍼스케일러의 AI 설비투자가 정체되는 순간 또 꺾일지에 있다.

ai-ml

네이버클라우드, 국방 전용 인공지능 조직 만든다

네이버클라우드가 6월 1일 국방 인공지능 전환 전담 태스크포스를 출범시키고, 김유원 대표가 직접 조직을 맡는다. 자체 파운데이션 모델, 클라우드 인프라, 소버린 인공지능 역량을 묶어 국방 특화 인공지능 시장을 선점하려는 움직임이다.

ai-ml

네이버클라우드, 국방 AI 전담 조직 만든다…한국판 팔란티어 실험 시작

네이버클라우드가 6월 1일 국방 AX 전담 태스크포스를 출범시키고, 김유원 대표가 직접 조직을 맡는다. 자체 파운데이션 모델, 클라우드 인프라, 소버린 AI 역량을 묶어 국방 특화 AI 모델과 서비스를 만들겠다는 구상이다. 군사 기밀과 데이터 주권이 걸린 영역이라 외산 모델 의존을 줄이려는 흐름이 핵심이다.

ai-ml

허깅페이스, 375만 원짜리 오픈소스 휴머노이드 플랫폼 공개

허깅페이스가 약 2,500달러, 한화 약 375만 원으로 직접 만들 수 있는 오픈소스 2족보행 휴머노이드 플랫폼 르로봇 휴머노이드를 공개했다. 단순 모델 공개가 아니라 부품 목록, 3D 프린팅 파일, 조립 문서, 시뮬레이션, 데이터 수집, 정책 훈련, 실물 제어까지 묶은 풀스택 로봇 학습 플랫폼이라는 점이 포인트다.