오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

ai-ml 2026-05-03 약 7분

 tags

#llm #healthcare #diagnosis #triage #openai

vote

북마크

하버드 연구에서 오픈AI의 o1 추론 모델이 응급실 초기 진단 실험에서 67% 정확도를 보여, 인간 의사들의 50-55%를 앞섰다. 더 많은 정보가 주어진 상황에서는 AI가 82%, 전문가가 70-79%였지만 이 차이는 통계적으로 유의하지 않았다. 연구진은 의사를 대체한다기보다 의사, 환자, AI가 함께 판단하는 새 진료 모델로 봐야 한다고 선을 그었다.

1
응급실 환자 76명 기록 기반 실험에서 o1은 67%, 의사들은 50-55% 정확도를 기록
2
더 많은 정보가 주어지면 o1은 82%, 전문가들은 70-79% 정확도를 보였으나 통계적 유의성은 없었음
3
치료 계획 작성 실험에서는 AI가 89%, 일반 자료를 쓴 의사 46명이 34%를 기록
4
연구는 텍스트 기반 환자 기록만 다뤘고, 환자의 외형이나 고통 정도 같은 현장 신호는 평가하지 않았음
5
책임 소재, 오류 위험, 의사의 AI 답변 의존 문제가 주요 리스크로 남음

하버드 연구에서 오픈AI의 o1이 응급실 초기 진단 실험에서 인간 의사보다 높은 정확도를 기록함
- 보스턴 병원 응급실에 온 환자 76명의 전자의무기록을 AI와 의사 2명에게 각각 제공함
- 기록에는 활력 징후, 인구통계 정보, 간호사가 적은 내원 사유 몇 문장 정도가 포함됨
- o1은 정확하거나 매우 가까운 진단을 67% 맞혔고, 인간 의사는 50-55%에 그침
정보가 더 많아지면 AI 정확도는 더 올라감
- 추가 세부 정보가 제공된 상황에서 o1의 진단 정확도는 82%까지 상승함
- 전문가 의사들은 같은 조건에서 70-79% 정확도를 보임
- 다만 이 차이는 통계적으로 유의미하다고 보기는 어렵다고 연구는 선을 그음

❗중요

> 이 연구의 핵심 숫자는 응급실 초기 기록 기반 진단에서 o1 67%, 의사 50-55%라는 차이임. 단, 실제 진료 전체를 AI가 대체했다는 뜻은 아님.

치료 계획 작성에서도 AI가 꽤 큰 차이를 냄
- AI와 의사 46명에게 5개의 임상 사례를 보고 장기 치료 계획을 세우게 함
- 항생제 요법을 정하거나 임종 과정 계획을 세우는 식의 과제가 포함됨
- AI는 89% 점수를 받았고, 검색엔진 같은 일반 자료를 사용한 인간 의사들은 34%를 기록함
- 이 정도면 “시험 문제 잘 푸는 모델”을 넘어 실제 의사결정 보조 쪽으로 무게가 옮겨가는 느낌이 있음
그래도 연구진은 “의사 끝났다”는 식으로 말하지 않음
- 이번 실험은 텍스트로 전달 가능한 환자 데이터만 다룸
- 환자의 표정, 고통 수준, 외형, 현장 분위기 같은 비텍스트 신호는 평가하지 않음
- 그래서 AI는 현장에서 환자를 직접 보는 의사라기보다, 문서 기반 두 번째 의견을 내는 임상의에 가까운 역할이었음
- 하버드 의대의 아르준 만라이는 AI가 의사를 대체한다기보다 의료를 재편할 기술 변화라고 설명함
연구 안의 사례 하나가 AI의 강점을 잘 보여줌
- 한 환자는 폐 혈전과 악화되는 증상으로 내원함
- 인간 의사들은 항응고제가 듣지 않는 상황이라고 판단함
- o1은 환자의 루푸스 병력을 보고, 이 병력이 폐 염증을 일으키는 원인일 수 있다고 짚음
- 결과적으로 AI의 판단이 맞았다고 연구는 설명함
의료 현장에서는 이미 AI 사용이 꽤 들어와 있음
- 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 쓰고 있다는 연구가 지난달 공개됨
- 영국에서는 의사 16%가 매일, 추가 15%가 매주 AI를 쓴다는 왕립의학회 조사가 있음
- 사용처 중 하나가 바로 임상 의사결정(clinical decision-making)임
문제는 성능보다 책임과 안전성 쪽에서 더 빡셈
- 영국 의사들이 가장 걱정한 부분은 AI 오류와 법적 책임 리스크였음
- 연구진도 현재 책임 소재를 다루는 공식 프레임워크가 없다고 지적함
- 환자 입장에서는 생사와 관련된 어려운 결정을 결국 사람이 설명하고 이끌어주길 원한다는 말도 나옴

⚠️주의

> 연구 결과가 좋다고 해서 일반 사용자가 공개 AI 도구를 의학적 조언 대체재로 쓰면 안 됨. 연구자들은 일상 진료에 안전하게 투입 가능하다는 결론까지는 내리지 않았음.

외부 전문가들은 기대와 경고를 같이 냄
- 에든버러대 유언 해리슨 교수는 이 시스템들이 이제 의학시험이나 인공 테스트 케이스를 넘어서 유용한 두 번째 의견 도구처럼 보이기 시작했다고 평가함
- 특히 가능한 진단 범위를 넓게 검토하고 중요한 것을 놓치지 않는 상황에서 가치가 있다는 설명임
- 셰필드대 웨이 싱 박사는 의사들이 AI 답변에 무의식적으로 기대는 문제가 커질 수 있다고 경고함
- 또 AI가 어떤 환자군에서 약했는지, 예를 들어 고령 환자나 영어가 모국어가 아닌 환자에게 더 취약했는지 정보가 부족하다고 지적함
결론은 꽤 현실적임. “AI 의사”보다는 “AI가 붙은 의사”에 가까움
- 연구진은 앞으로 10년 동안 의사, 환자, AI가 함께 움직이는 삼자 진료 모델(triadic care model)을 언급함
- 응급실처럼 정보가 적고 시간 압박이 큰 곳에서는 AI가 놓친 가능성을 띄워주는 역할을 할 수 있음
- 하지만 최종 판단, 설명, 책임, 환자와의 신뢰는 여전히 의료진 쪽에 남아 있음

기술 맥락

이번 연구의 기술적 선택은 대규모 언어 모델(LLM)을 진단 “자동화”가 아니라 문서 기반 두 번째 의견 도구로 본다는 점이에요. 응급실 초기에 주어지는 정보는 대부분 전자의무기록 텍스트라서, LLM이 강한 영역과 맞닿아 있거든요.
o1 같은 추론 모델이 유리했던 이유는 짧은 기록에서 가능한 진단 후보를 넓게 펼쳐보는 데 있어요. 사람은 시간 압박 속에서 가장 익숙한 경로로 판단이 좁아질 수 있는데, 모델은 기록 안의 병력이나 약물 같은 단서를 다른 가능성과 연결해볼 수 있거든요.
다만 실험 범위가 텍스트에 묶여 있었다는 게 중요해요. 실제 응급실에서는 환자의 피부색, 호흡 양상, 고통 표현, 보호자 설명처럼 기록에 잘 안 남는 신호가 많거든요. 그래서 이 결과를 현장 의사 대체로 읽으면 기술적 맥락을 놓치게 돼요.
의료 시스템에 넣으려면 모델 정확도만으로는 부족해요. 어떤 환자군에서 틀리는지, 의사가 AI 답변을 얼마나 검증하는지, 오류가 났을 때 누가 책임지는지까지 같이 설계해야 하거든요. 그래서 이 기술의 현실적인 위치는 진단 버튼이 아니라 임상의가 검토하는 보조 레이어에 가까워요.

의료 AI가 시험 문제를 잘 푸는 단계를 넘어 실제 진료 기록에서 두 번째 의견을 줄 수 있는 수준으로 이동 중이라는 신호다. 다만 정확도 숫자만 보고 환자-facing 자동 진단으로 바로 연결하면 위험하고, 책임 구조와 편향 검증이 같이 따라와야 한다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-08-01

MIT 연구진 “AI 금융 조언, 질문만 제대로 하면 꽤 쓸 만하다”

MIT Sloan 연구진이 GPT-5.2, GPT-5.6, Gemini 3 Flash의 금융 조언을 생애주기 모델로 시뮬레이션했더니, 전반적으로 저축·분산투자·위험 조절 같은 방향은 꽤 괜찮았음. 다만 실직 같은 충격 대응, 리밸런싱, 사용자 성별·금융 지식에 따른 조언 격차는 여전히 위험 포인트로 남음.

ai-ml 2026-08-01

바이트댄스, 30초짜리 영상까지 한 번에 뽑는 Seedance 2.5 공개

바이트댄스가 영상 생성 모델 Seedance 2.5를 공개했음. 30초 오디오·비디오 생성, 최대 이미지 30장·영상 10개·오디오 10개 참조, 타임스탬프 단위 편집을 앞세워 단순 클립 생성에서 제작 워크플로 쪽으로 밀고 가는 업데이트임.

ai-ml 2026-08-01

AI 코딩 시대에도 결국 도메인 전문가가 이긴다는 데이터가 나왔다

앤트로픽이 클로드 코드 사용 세션 40만 건을 분석한 결과, AI 코딩 성과를 가르는 핵심은 코딩 손기술보다 업무 전문성이었음. 전문가는 한 번의 지시로 더 많은 작업을 끌어내고, 문제가 생겼을 때도 포기하지 않고 AI를 올바른 방향으로 되돌리는 비율이 높았음.

ai-ml 2026-08-02

정부, 엔비디아에 AMD까지 붙여 AI 인프라 선택지 넓힌다

정부가 엔비디아 GPU 확보에 그치지 않고 AMD, 국산 NPU, CXL, DPU까지 엮는 개방형 AI 컴퓨팅 생태계로 방향을 넓히고 있음. AI 경쟁이 단순히 GPU를 얼마나 많이 사느냐에서 워크로드에 맞춰 CPU·GPU·NPU를 어떻게 조합하느냐로 넘어가는 분위기임.

ai-ml 2026-08-02

빅테크 AI 투자 폭증, 삼성·하이닉스 HBM 싸움이 더 뜨거워졌다

아마존, 구글, 마이크로소프트, 메타가 올해 AI 인프라 설비투자 계획을 최대 7600억달러까지 올리면서 HBM 수요가 다시 확인됐어. 삼성전자는 HBM4로 점유율을 끌어올리겠다고 나섰고, SK하이닉스는 양산 경험과 고객 신뢰를 앞세워 1위 방어에 들어갔어.

오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사