본문으로 건너뛰기
피드

오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

ai-ml 약 7분
vote
0
댓글
북마크

하버드 연구에서 오픈AI의 o1 추론 모델이 응급실 초기 진단 실험에서 67% 정확도를 보여, 인간 의사들의 50-55%를 앞섰다. 더 많은 정보가 주어진 상황에서는 AI가 82%, 전문가가 70-79%였지만 이 차이는 통계적으로 유의하지 않았다. 연구진은 의사를 대체한다기보다 의사, 환자, AI가 함께 판단하는 새 진료 모델로 봐야 한다고 선을 그었다.

  • 1

    응급실 환자 76명 기록 기반 실험에서 o1은 67%, 의사들은 50-55% 정확도를 기록

  • 2

    더 많은 정보가 주어지면 o1은 82%, 전문가들은 70-79% 정확도를 보였으나 통계적 유의성은 없었음

  • 3

    치료 계획 작성 실험에서는 AI가 89%, 일반 자료를 쓴 의사 46명이 34%를 기록

  • 4

    연구는 텍스트 기반 환자 기록만 다뤘고, 환자의 외형이나 고통 정도 같은 현장 신호는 평가하지 않았음

  • 5

    책임 소재, 오류 위험, 의사의 AI 답변 의존 문제가 주요 리스크로 남음

  • 하버드 연구에서 오픈AI의 o1이 응급실 초기 진단 실험에서 인간 의사보다 높은 정확도를 기록함

    • 보스턴 병원 응급실에 온 환자 76명의 전자의무기록을 AI와 의사 2명에게 각각 제공함
    • 기록에는 활력 징후, 인구통계 정보, 간호사가 적은 내원 사유 몇 문장 정도가 포함됨
    • o1은 정확하거나 매우 가까운 진단을 67% 맞혔고, 인간 의사는 50-55%에 그침
  • 정보가 더 많아지면 AI 정확도는 더 올라감

    • 추가 세부 정보가 제공된 상황에서 o1의 진단 정확도는 82%까지 상승함
    • 전문가 의사들은 같은 조건에서 70-79% 정확도를 보임
    • 다만 이 차이는 통계적으로 유의미하다고 보기는 어렵다고 연구는 선을 그음

중요

> 이 연구의 핵심 숫자는 응급실 초기 기록 기반 진단에서 o1 67%, 의사 50-55%라는 차이임. 단, 실제 진료 전체를 AI가 대체했다는 뜻은 아님.

  • 치료 계획 작성에서도 AI가 꽤 큰 차이를 냄

    • AI와 의사 46명에게 5개의 임상 사례를 보고 장기 치료 계획을 세우게 함
    • 항생제 요법을 정하거나 임종 과정 계획을 세우는 식의 과제가 포함됨
    • AI는 89% 점수를 받았고, 검색엔진 같은 일반 자료를 사용한 인간 의사들은 34%를 기록함
    • 이 정도면 “시험 문제 잘 푸는 모델”을 넘어 실제 의사결정 보조 쪽으로 무게가 옮겨가는 느낌이 있음
  • 그래도 연구진은 “의사 끝났다”는 식으로 말하지 않음

    • 이번 실험은 텍스트로 전달 가능한 환자 데이터만 다룸
    • 환자의 표정, 고통 수준, 외형, 현장 분위기 같은 비텍스트 신호는 평가하지 않음
    • 그래서 AI는 현장에서 환자를 직접 보는 의사라기보다, 문서 기반 두 번째 의견을 내는 임상의에 가까운 역할이었음
    • 하버드 의대의 아르준 만라이는 AI가 의사를 대체한다기보다 의료를 재편할 기술 변화라고 설명함
  • 연구 안의 사례 하나가 AI의 강점을 잘 보여줌

    • 한 환자는 폐 혈전과 악화되는 증상으로 내원함
    • 인간 의사들은 항응고제가 듣지 않는 상황이라고 판단함
    • o1은 환자의 루푸스 병력을 보고, 이 병력이 폐 염증을 일으키는 원인일 수 있다고 짚음
    • 결과적으로 AI의 판단이 맞았다고 연구는 설명함
  • 의료 현장에서는 이미 AI 사용이 꽤 들어와 있음

    • 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 쓰고 있다는 연구가 지난달 공개됨
    • 영국에서는 의사 16%가 매일, 추가 15%가 매주 AI를 쓴다는 왕립의학회 조사가 있음
    • 사용처 중 하나가 바로 임상 의사결정(clinical decision-making)임
  • 문제는 성능보다 책임과 안전성 쪽에서 더 빡셈

    • 영국 의사들이 가장 걱정한 부분은 AI 오류와 법적 책임 리스크였음
    • 연구진도 현재 책임 소재를 다루는 공식 프레임워크가 없다고 지적함
    • 환자 입장에서는 생사와 관련된 어려운 결정을 결국 사람이 설명하고 이끌어주길 원한다는 말도 나옴

⚠️주의

> 연구 결과가 좋다고 해서 일반 사용자가 공개 AI 도구를 의학적 조언 대체재로 쓰면 안 됨. 연구자들은 일상 진료에 안전하게 투입 가능하다는 결론까지는 내리지 않았음.

  • 외부 전문가들은 기대와 경고를 같이 냄

    • 에든버러대 유언 해리슨 교수는 이 시스템들이 이제 의학시험이나 인공 테스트 케이스를 넘어서 유용한 두 번째 의견 도구처럼 보이기 시작했다고 평가함
    • 특히 가능한 진단 범위를 넓게 검토하고 중요한 것을 놓치지 않는 상황에서 가치가 있다는 설명임
    • 셰필드대 웨이 싱 박사는 의사들이 AI 답변에 무의식적으로 기대는 문제가 커질 수 있다고 경고함
    • 또 AI가 어떤 환자군에서 약했는지, 예를 들어 고령 환자나 영어가 모국어가 아닌 환자에게 더 취약했는지 정보가 부족하다고 지적함
  • 결론은 꽤 현실적임. “AI 의사”보다는 “AI가 붙은 의사”에 가까움

    • 연구진은 앞으로 10년 동안 의사, 환자, AI가 함께 움직이는 삼자 진료 모델(triadic care model)을 언급함
    • 응급실처럼 정보가 적고 시간 압박이 큰 곳에서는 AI가 놓친 가능성을 띄워주는 역할을 할 수 있음
    • 하지만 최종 판단, 설명, 책임, 환자와의 신뢰는 여전히 의료진 쪽에 남아 있음

기술 맥락

  • 이번 연구의 기술적 선택은 대규모 언어 모델(LLM)을 진단 “자동화”가 아니라 문서 기반 두 번째 의견 도구로 본다는 점이에요. 응급실 초기에 주어지는 정보는 대부분 전자의무기록 텍스트라서, LLM이 강한 영역과 맞닿아 있거든요.

  • o1 같은 추론 모델이 유리했던 이유는 짧은 기록에서 가능한 진단 후보를 넓게 펼쳐보는 데 있어요. 사람은 시간 압박 속에서 가장 익숙한 경로로 판단이 좁아질 수 있는데, 모델은 기록 안의 병력이나 약물 같은 단서를 다른 가능성과 연결해볼 수 있거든요.

  • 다만 실험 범위가 텍스트에 묶여 있었다는 게 중요해요. 실제 응급실에서는 환자의 피부색, 호흡 양상, 고통 표현, 보호자 설명처럼 기록에 잘 안 남는 신호가 많거든요. 그래서 이 결과를 현장 의사 대체로 읽으면 기술적 맥락을 놓치게 돼요.

  • 의료 시스템에 넣으려면 모델 정확도만으로는 부족해요. 어떤 환자군에서 틀리는지, 의사가 AI 답변을 얼마나 검증하는지, 오류가 났을 때 누가 책임지는지까지 같이 설계해야 하거든요. 그래서 이 기술의 현실적인 위치는 진단 버튼이 아니라 임상의가 검토하는 보조 레이어에 가까워요.

의료 AI가 시험 문제를 잘 푸는 단계를 넘어 실제 진료 기록에서 두 번째 의견을 줄 수 있는 수준으로 이동 중이라는 신호다. 다만 정확도 숫자만 보고 환자-facing 자동 진단으로 바로 연결하면 위험하고, 책임 구조와 편향 검증이 같이 따라와야 한다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

건설업계도 피지컬 AI 실험 중, 관건은 로봇보다 현장 데이터다

국내 건설사들이 인공지능(AI)과 로보틱스를 건설 현장에 적용하려는 실험을 늘리고 있다. GS건설은 로봇을 활용한 자재 운반·반복 작업 자동화를 검토하고, 현대건설은 AI 카메라 기반 안전 기술을 도입하려는 중이다. 다만 실제 안착까지는 사람과 AI의 협업 방식, 현장 작업자의 데이터 활용 체계 같은 숙제가 남아 있다.

ai-ml

AI 모델 접속도 수출통제 대상이 되면 벌어지는 일

앤트로픽이 미국 정부 수출통제 지침에 따라 최신 AI 모델 접근을 출시 사흘 만에 차단했다는 사례를 통해, 클라우드 AI 모델 접근권이 국가 안보와 산업정책에 종속될 수 있다는 문제가 드러났다. 데이터 주권만으로는 부족하고, 모델 능력과 연산 접근권까지 포함한 소버린 AI 전략이 필요하다는 논점이다.

ai-ml

건설 현장에 AI 로봇이 들어오려면 아직 데이터와 협업 방식이 숙제

GS건설, 현대건설, 삼성물산 등 국내 건설사가 AI와 로봇 기술을 현장 자동화와 안전관리, 단지 서비스에 적용하려는 움직임을 보이고 있다. 다만 사람과 로봇이 함께 일하는 방식, 실증 사례 축적, 현장 작업자의 데이터 활용 체계가 갖춰져야 실제 확산이 가능하다는 지적이 나온다.

ai-ml

라벨링 1천 장을 100장으로 줄인다는 슈퍼브에이아이의 비전 AI 플랫폼

슈퍼브에이아이가 2026 스마트테크 코리아에서 데이터 구축부터 모델 개발, 운영까지 묶은 슈퍼브 플랫폼을 공개했다. 비전 파운데이션 모델로 라벨링 부담을 줄이고, 대규모 언어 모델과 비디오 언어 모델을 결합해 텍스트 명령만으로 CCTV 속 위험 상황을 찾는 기능까지 제시했다.

ai-ml

프롬프트만으로 게임 만드는 시대, 진짜 어디까지 왔나

AI가 이미지·영상·코드 생성을 넘어, 탐험 가능한 3D 세계와 게임 프로토타입까지 만들기 시작했다. 구글 딥마인드의 프로젝트 지니부터 오버데어, 버스에잇, 바르코까지 사례는 늘고 있지만, 물리 오류·레이턴시·최적화·조작감 같은 완성도 문제는 아직 사람 몫으로 남아 있다.