본문으로 건너뛰기
피드

오픈AI o1, 응급실 진단 실험에서 의사보다 높은 정확도 기록

ai-ml 약 7분

하버드 연구에서 오픈AI의 o1 추론 모델이 응급실 초기 진단 실험에서 67% 정확도를 보여, 인간 의사들의 50-55%를 앞섰다. 더 많은 정보가 주어진 상황에서는 AI가 82%, 전문가가 70-79%였지만 이 차이는 통계적으로 유의하지 않았다. 연구진은 의사를 대체한다기보다 의사, 환자, AI가 함께 판단하는 새 진료 모델로 봐야 한다고 선을 그었다.

  • 1

    응급실 환자 76명 기록 기반 실험에서 o1은 67%, 의사들은 50-55% 정확도를 기록

  • 2

    더 많은 정보가 주어지면 o1은 82%, 전문가들은 70-79% 정확도를 보였으나 통계적 유의성은 없었음

  • 3

    치료 계획 작성 실험에서는 AI가 89%, 일반 자료를 쓴 의사 46명이 34%를 기록

  • 4

    연구는 텍스트 기반 환자 기록만 다뤘고, 환자의 외형이나 고통 정도 같은 현장 신호는 평가하지 않았음

  • 5

    책임 소재, 오류 위험, 의사의 AI 답변 의존 문제가 주요 리스크로 남음

  • 하버드 연구에서 오픈AI의 o1이 응급실 초기 진단 실험에서 인간 의사보다 높은 정확도를 기록함

    • 보스턴 병원 응급실에 온 환자 76명의 전자의무기록을 AI와 의사 2명에게 각각 제공함
    • 기록에는 활력 징후, 인구통계 정보, 간호사가 적은 내원 사유 몇 문장 정도가 포함됨
    • o1은 정확하거나 매우 가까운 진단을 67% 맞혔고, 인간 의사는 50-55%에 그침
  • 정보가 더 많아지면 AI 정확도는 더 올라감

    • 추가 세부 정보가 제공된 상황에서 o1의 진단 정확도는 82%까지 상승함
    • 전문가 의사들은 같은 조건에서 70-79% 정확도를 보임
    • 다만 이 차이는 통계적으로 유의미하다고 보기는 어렵다고 연구는 선을 그음

중요

> 이 연구의 핵심 숫자는 응급실 초기 기록 기반 진단에서 o1 67%, 의사 50-55%라는 차이임. 단, 실제 진료 전체를 AI가 대체했다는 뜻은 아님.

  • 치료 계획 작성에서도 AI가 꽤 큰 차이를 냄

    • AI와 의사 46명에게 5개의 임상 사례를 보고 장기 치료 계획을 세우게 함
    • 항생제 요법을 정하거나 임종 과정 계획을 세우는 식의 과제가 포함됨
    • AI는 89% 점수를 받았고, 검색엔진 같은 일반 자료를 사용한 인간 의사들은 34%를 기록함
    • 이 정도면 “시험 문제 잘 푸는 모델”을 넘어 실제 의사결정 보조 쪽으로 무게가 옮겨가는 느낌이 있음
  • 그래도 연구진은 “의사 끝났다”는 식으로 말하지 않음

    • 이번 실험은 텍스트로 전달 가능한 환자 데이터만 다룸
    • 환자의 표정, 고통 수준, 외형, 현장 분위기 같은 비텍스트 신호는 평가하지 않음
    • 그래서 AI는 현장에서 환자를 직접 보는 의사라기보다, 문서 기반 두 번째 의견을 내는 임상의에 가까운 역할이었음
    • 하버드 의대의 아르준 만라이는 AI가 의사를 대체한다기보다 의료를 재편할 기술 변화라고 설명함
  • 연구 안의 사례 하나가 AI의 강점을 잘 보여줌

    • 한 환자는 폐 혈전과 악화되는 증상으로 내원함
    • 인간 의사들은 항응고제가 듣지 않는 상황이라고 판단함
    • o1은 환자의 루푸스 병력을 보고, 이 병력이 폐 염증을 일으키는 원인일 수 있다고 짚음
    • 결과적으로 AI의 판단이 맞았다고 연구는 설명함
  • 의료 현장에서는 이미 AI 사용이 꽤 들어와 있음

    • 미국 의사 약 5명 중 1명은 이미 진단 보조에 AI를 쓰고 있다는 연구가 지난달 공개됨
    • 영국에서는 의사 16%가 매일, 추가 15%가 매주 AI를 쓴다는 왕립의학회 조사가 있음
    • 사용처 중 하나가 바로 임상 의사결정(clinical decision-making)임
  • 문제는 성능보다 책임과 안전성 쪽에서 더 빡셈

    • 영국 의사들이 가장 걱정한 부분은 AI 오류와 법적 책임 리스크였음
    • 연구진도 현재 책임 소재를 다루는 공식 프레임워크가 없다고 지적함
    • 환자 입장에서는 생사와 관련된 어려운 결정을 결국 사람이 설명하고 이끌어주길 원한다는 말도 나옴

⚠️주의

> 연구 결과가 좋다고 해서 일반 사용자가 공개 AI 도구를 의학적 조언 대체재로 쓰면 안 됨. 연구자들은 일상 진료에 안전하게 투입 가능하다는 결론까지는 내리지 않았음.

  • 외부 전문가들은 기대와 경고를 같이 냄

    • 에든버러대 유언 해리슨 교수는 이 시스템들이 이제 의학시험이나 인공 테스트 케이스를 넘어서 유용한 두 번째 의견 도구처럼 보이기 시작했다고 평가함
    • 특히 가능한 진단 범위를 넓게 검토하고 중요한 것을 놓치지 않는 상황에서 가치가 있다는 설명임
    • 셰필드대 웨이 싱 박사는 의사들이 AI 답변에 무의식적으로 기대는 문제가 커질 수 있다고 경고함
    • 또 AI가 어떤 환자군에서 약했는지, 예를 들어 고령 환자나 영어가 모국어가 아닌 환자에게 더 취약했는지 정보가 부족하다고 지적함
  • 결론은 꽤 현실적임. “AI 의사”보다는 “AI가 붙은 의사”에 가까움

    • 연구진은 앞으로 10년 동안 의사, 환자, AI가 함께 움직이는 삼자 진료 모델(triadic care model)을 언급함
    • 응급실처럼 정보가 적고 시간 압박이 큰 곳에서는 AI가 놓친 가능성을 띄워주는 역할을 할 수 있음
    • 하지만 최종 판단, 설명, 책임, 환자와의 신뢰는 여전히 의료진 쪽에 남아 있음

기술 맥락

  • 이번 연구의 기술적 선택은 대규모 언어 모델(LLM)을 진단 “자동화”가 아니라 문서 기반 두 번째 의견 도구로 본다는 점이에요. 응급실 초기에 주어지는 정보는 대부분 전자의무기록 텍스트라서, LLM이 강한 영역과 맞닿아 있거든요.

  • o1 같은 추론 모델이 유리했던 이유는 짧은 기록에서 가능한 진단 후보를 넓게 펼쳐보는 데 있어요. 사람은 시간 압박 속에서 가장 익숙한 경로로 판단이 좁아질 수 있는데, 모델은 기록 안의 병력이나 약물 같은 단서를 다른 가능성과 연결해볼 수 있거든요.

  • 다만 실험 범위가 텍스트에 묶여 있었다는 게 중요해요. 실제 응급실에서는 환자의 피부색, 호흡 양상, 고통 표현, 보호자 설명처럼 기록에 잘 안 남는 신호가 많거든요. 그래서 이 결과를 현장 의사 대체로 읽으면 기술적 맥락을 놓치게 돼요.

  • 의료 시스템에 넣으려면 모델 정확도만으로는 부족해요. 어떤 환자군에서 틀리는지, 의사가 AI 답변을 얼마나 검증하는지, 오류가 났을 때 누가 책임지는지까지 같이 설계해야 하거든요. 그래서 이 기술의 현실적인 위치는 진단 버튼이 아니라 임상의가 검토하는 보조 레이어에 가까워요.

의료 AI가 시험 문제를 잘 푸는 단계를 넘어 실제 진료 기록에서 두 번째 의견을 줄 수 있는 수준으로 이동 중이라는 신호다. 다만 정확도 숫자만 보고 환자-facing 자동 진단으로 바로 연결하면 위험하고, 책임 구조와 편향 검증이 같이 따라와야 한다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

딥클로드, 클로드 코드 실행 루프는 그대로 두고 모델만 딥시크로 바꾸는 우회로 공개

딥클로드는 클로드 코드의 파일 편집, 셸 실행, 깃 작업, 에이전트 루프는 그대로 쓰면서 모델 호출만 딥시크 V4 프로나 오픈라우터 같은 앤트로픽 호환 백엔드로 돌리는 도구다. 핵심 주장은 같은 개발자 경험을 유지하면서 출력 토큰 가격을 100만 토큰당 15달러에서 0.87달러 수준으로 낮출 수 있다는 것. 다만 이미지 입력, 일부 호환 계층 기능, 모델별 추론 품질 차이는 그대로 감수해야 한다.

ai-ml

메가존클라우드, AWS 에이전틱 AI 실습 행사 국내 운영 맡는다

메가존클라우드가 AWS 에이전틱 AI 게임데이의 공식 운영 파트너로 선정돼 5월 중 국내 기업 대상 실습형 프로그램을 연다. 참가 기업은 실제 업무와 비슷한 시나리오에서 아마존 베드록, 베드록 에이전트코어, 스트랜드 에이전트 등을 비용 부담 없이 검증하게 된다.

ai-ml

LG CNS, 1분기 매출 1.3조 원…AI·클라우드가 절반 넘게 끌었다

LG CNS가 1분기 매출 1조3150억 원, 영업이익 942억 원을 기록하며 전년 대비 각각 8.6%, 19.4% 성장했다. AI·클라우드 사업만 7654억 원으로 전체 매출의 약 58%를 차지했고, 오픈AI·팔란티어 협력, 데이터센터 DBO, 피지컬 AI까지 전선을 넓히는 중이다.

ai-ml

메가존클라우드, 국내 기업 대상 AWS 에이전틱 AI 게임데이 운영

메가존클라우드가 AWS의 ‘에이전틱 AI 게임데이’ 공식 운영 파트너로 선정돼 국내 기업 대상 실습형 AI 교육을 맡는다. 참가자들은 단순 강의가 아니라 팀 단위로 실제 기술 문제를 정의하고 해결책을 설계하는 방식으로 에이전트 기반 AI 활용을 경험하게 된다.

ai-ml

카카오 플레이MCP, 오픈클로 연동으로 AI 에이전트 도구 생태계 넓힘

카카오가 MCP 기반 플랫폼 ‘플레이MCP’를 오픈소스 AI 에이전트 ‘오픈클로’와 연동했다. 카카오톡, 톡캘린더, 카카오맵, 멜론 등 약 200개 MCP 서버를 클로드와 챗GPT뿐 아니라 로컬 에이전트 환경에서도 쓸 수 있게 됐다.