---
title: "오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록"
published: 2026-05-03T00:30:50.000Z
canonical: https://jeff.news/article/2138
---
# 오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

하버드 연구에서 오픈AI의 o1 추론 모델이 응급실 초기 진단 실험에서 67% 정확도를 보여, 인간 의사들의 50-55%를 앞섰다. 더 많은 정보가 주어진 상황에서는 AI가 82%, 전문가가 70-79%였지만 이 차이는 통계적으로 유의하지 않았다. 연구진은 의사를 대체한다기보다 의사, 환자, AI가 함께 판단하는 새 진료 모델로 봐야 한다고 선을 그었다.

- 하버드 연구에서 오픈AI의 o1이 응급실 초기 진단 실험에서 인간 의사보다 높은 정확도를 기록함
  - 보스턴 병원 응급실에 온 환자 76명의 전자의무기록을 AI와 의사 2명에게 각각 제공함
  - 기록에는 활력 징후, 인구통계 정보, 간호사가 적은 내원 사유 몇 문장 정도가 포함됨
  - o1은 정확하거나 매우 가까운 진단을 67% 맞혔고, 인간 의사는 50-55%에 그침

- 정보가 더 많아지면 AI 정확도는 더 올라감
  - 추가 세부 정보가 제공된 상황에서 o1의 진단 정확도는 82%까지 상승함
  - 전문가 의사들은 같은 조건에서 70-79% 정확도를 보임
  - 다만 이 차이는 통계적으로 유의미하다고 보기는 어렵다고 연구는 선을 그음

> [!IMPORTANT]
> 이 연구의 핵심 숫자는 응급실 초기 기록 기반 진단에서 o1 67%, 의사 50-55%라는 차이임. 단, 실제 진료 전체를 AI가 대체했다는 뜻은 아님.

- 치료 계획 작성에서도 AI가 꽤 큰 차이를 냄
  - AI와 의사 46명에게 5개의 임상 사례를 보고 장기 치료 계획을 세우게 함
  - 항생제 요법을 정하거나 임종 과정 계획을 세우는 식의 과제가 포함됨
  - AI는 89% 점수를 받았고, 검색엔진 같은 일반 자료를 사용한 인간 의사들은 34%를 기록함
  - 이 정도면 “시험 문제 잘 푸는 모델”을 넘어 실제 의사결정 보조 쪽으로 무게가 옮겨가는 느낌이 있음

- 그래도 연구진은 “의사 끝났다”는 식으로 말하지 않음
  - 이번 실험은 텍스트로 전달 가능한 환자 데이터만 다룸
  - 환자의 표정, 고통 수준, 외형, 현장 분위기 같은 비텍스트 신호는 평가하지 않음
  - 그래서 AI는 현장에서 환자를 직접 보는 의사라기보다, 문서 기반 두 번째 의견을 내는 임상의에 가까운 역할이었음
  - 하버드 의대의 아르준 만라이는 AI가 의사를 대체한다기보다 의료를 재편할 기술 변화라고 설명함

- 연구 안의 사례 하나가 AI의 강점을 잘 보여줌
  - 한 환자는 폐 혈전과 악화되는 증상으로 내원함
  - 인간 의사들은 항응고제가 듣지 않는 상황이라고 판단함
  - o1은 환자의 루푸스 병력을 보고, 이 병력이 폐 염증을 일으키는 원인일 수 있다고 짚음
  - 결과적으로 AI의 판단이 맞았다고 연구는 설명함

- 의료 현장에서는 이미 AI 사용이 꽤 들어와 있음
  - 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 쓰고 있다는 연구가 지난달 공개됨
  - 영국에서는 의사 16%가 매일, 추가 15%가 매주 AI를 쓴다는 왕립의학회 조사가 있음
  - 사용처 중 하나가 바로 임상 의사결정(clinical decision-making)임

- 문제는 성능보다 책임과 안전성 쪽에서 더 빡셈
  - 영국 의사들이 가장 걱정한 부분은 AI 오류와 법적 책임 리스크였음
  - 연구진도 현재 책임 소재를 다루는 공식 프레임워크가 없다고 지적함
  - 환자 입장에서는 생사와 관련된 어려운 결정을 결국 사람이 설명하고 이끌어주길 원한다는 말도 나옴

> [!WARNING]
> 연구 결과가 좋다고 해서 일반 사용자가 공개 AI 도구를 의학적 조언 대체재로 쓰면 안 됨. 연구자들은 일상 진료에 안전하게 투입 가능하다는 결론까지는 내리지 않았음.

- 외부 전문가들은 기대와 경고를 같이 냄
  - 에든버러대 유언 해리슨 교수는 이 시스템들이 이제 의학시험이나 인공 테스트 케이스를 넘어서 유용한 두 번째 의견 도구처럼 보이기 시작했다고 평가함
  - 특히 가능한 진단 범위를 넓게 검토하고 중요한 것을 놓치지 않는 상황에서 가치가 있다는 설명임
  - 셰필드대 웨이 싱 박사는 의사들이 AI 답변에 무의식적으로 기대는 문제가 커질 수 있다고 경고함
  - 또 AI가 어떤 환자군에서 약했는지, 예를 들어 고령 환자나 영어가 모국어가 아닌 환자에게 더 취약했는지 정보가 부족하다고 지적함

- 결론은 꽤 현실적임. “AI 의사”보다는 “AI가 붙은 의사”에 가까움
  - 연구진은 앞으로 10년 동안 의사, 환자, AI가 함께 움직이는 삼자 진료 모델(triadic care model)을 언급함
  - 응급실처럼 정보가 적고 시간 압박이 큰 곳에서는 AI가 놓친 가능성을 띄워주는 역할을 할 수 있음
  - 하지만 최종 판단, 설명, 책임, 환자와의 신뢰는 여전히 의료진 쪽에 남아 있음

---

## 기술 맥락

- 이번 연구의 기술적 선택은 대규모 언어 모델(LLM)을 진단 “자동화”가 아니라 문서 기반 두 번째 의견 도구로 본다는 점이에요. 응급실 초기에 주어지는 정보는 대부분 전자의무기록 텍스트라서, LLM이 강한 영역과 맞닿아 있거든요.

- o1 같은 추론 모델이 유리했던 이유는 짧은 기록에서 가능한 진단 후보를 넓게 펼쳐보는 데 있어요. 사람은 시간 압박 속에서 가장 익숙한 경로로 판단이 좁아질 수 있는데, 모델은 기록 안의 병력이나 약물 같은 단서를 다른 가능성과 연결해볼 수 있거든요.

- 다만 실험 범위가 텍스트에 묶여 있었다는 게 중요해요. 실제 응급실에서는 환자의 피부색, 호흡 양상, 고통 표현, 보호자 설명처럼 기록에 잘 안 남는 신호가 많거든요. 그래서 이 결과를 현장 의사 대체로 읽으면 기술적 맥락을 놓치게 돼요.

- 의료 시스템에 넣으려면 모델 정확도만으로는 부족해요. 어떤 환자군에서 틀리는지, 의사가 AI 답변을 얼마나 검증하는지, 오류가 났을 때 누가 책임지는지까지 같이 설계해야 하거든요. 그래서 이 기술의 현실적인 위치는 진단 버튼이 아니라 임상의가 검토하는 보조 레이어에 가까워요.

## 핵심 포인트

- 응급실 환자 76명 기록 기반 실험에서 o1은 67%, 의사들은 50-55% 정확도를 기록
- 더 많은 정보가 주어지면 o1은 82%, 전문가들은 70-79% 정확도를 보였으나 통계적 유의성은 없었음
- 치료 계획 작성 실험에서는 AI가 89%, 일반 자료를 쓴 의사 46명이 34%를 기록
- 연구는 텍스트 기반 환자 기록만 다뤘고, 환자의 외형이나 고통 정도 같은 현장 신호는 평가하지 않았음
- 책임 소재, 오류 위험, 의사의 AI 답변 의존 문제가 주요 리스크로 남음

## 인사이트

의료 AI가 시험 문제를 잘 푸는 단계를 넘어 실제 진료 기록에서 두 번째 의견을 줄 수 있는 수준으로 이동 중이라는 신호다. 다만 정확도 숫자만 보고 환자-facing 자동 진단으로 바로 연결하면 위험하고, 책임 구조와 편향 검증이 같이 따라와야 한다.