---
title: "EPFL, 학습 데이터부터 평가 방식까지 연 의료 LLM ‘메디트론FO’ 공개"
published: 2026-06-21T08:05:03.019Z
canonical: https://jeff.news/article/4150
---
# EPFL, 학습 데이터부터 평가 방식까지 연 의료 LLM ‘메디트론FO’ 공개

EPFL이 의료 대규모 언어 모델(LLM) 개발 과정을 통째로 공개하는 메디트론FO를 내놨다. 모델 가중치만 공개하는 수준을 넘어 학습 데이터, 정제 과정, 훈련 코드, 평가 방법까지 열어 의료 AI의 검증 가능성을 끌어올리겠다는 시도다. 공개형 모델을 의료 특화로 재학습한 결과, 아페르투스-70B-메디트론FO는 의료 벤치마크에서 기반 모델보다 6.6%포인트 높은 성능을 냈다.

## 의료 LLM에서 ‘오픈’의 기준을 다시 잡겠다는 시도

- EPFL이 공개한 메디트론FO는 의료 대규모 언어 모델(LLM)을 만드는 전 과정을 열어둔 프레임워크임
  - 기존 오픈소스 AI가 보통 모델 가중치만 공개했다면, 메디트론FO는 학습 데이터, 데이터 처리 과정, 학습 코드, 훈련 절차, 평가 방법까지 공개함
  - 연구진은 이걸 의료 AI에 대한 독립 검증과 감사를 가능하게 하는 방식이라고 설명함

- 의료 분야에서 이 차이는 꽤 큼
  - 응급실 진단 보조, 질병 분류, 임상 의사결정 지원처럼 잘못되면 바로 사람에게 영향이 가는 영역이라서임
  - 폐쇄형 모델은 어떤 데이터를 학습했는지, 왜 특정 권고를 냈는지 외부에서 보기 어렵다는 비판을 받아왔음

> [!IMPORTANT]
> 연구진의 핵심 주장은 단순함. 의료 AI도 의사처럼 교육 과정과 자격을 검증할 수 있어야 신뢰할 수 있다는 것.

## 모델만이 아니라 검증 구조까지 열었다

- 메디트론FO는 기존 메디트론 프로젝트를 기반으로 공개형 LLM을 의료 특화 모델로 바꾸는 표준 파이프라인을 제공함
  - 올모(OLMo), 유로LLM(EuroLLM), 아페르투스(Apertus) 같은 공개형 모델을 의료 모델로 전환할 수 있게 설계됨
  - 아페르투스는 EPFL과 취리히연방공과대학교가 함께 만든 스위스 공개형 AI 모델임

- 흥미로운 지점은 의료진을 단순 평가자가 아니라 개발 과정의 핵심 참여자로 넣었다는 점임
  - 연구진은 무브(MOOVE, Massive Open Online Validation and Evaluations)라는 개방형 검증 체계를 만들었음
  - 의사들이 데이터 선별, 모델 평가, 안전성 검증에 직접 참여함
  - 의료 현장에서 쓸 만한 데이터인지, 잠재 오류가 있는지, 안전 문제가 있는지 초기에 걸러내려는 구조임

- 학습 데이터도 그냥 긁어온 텍스트가 아님
  - 공개 의료 데이터셋에 더해 의료진 검토를 거친 합성 데이터(Synthetic Data)를 사용함
  - 합성 데이터는 실제 의료 시험 문제, 임상 진료 지침, 현실적인 환자 사례를 기반으로 만들어짐
  - 연구진은 전 세계 4만6000건 이상의 임상 진료 지침(Clinical Practice Guidelines)을 선별하고 정제해 학습 데이터에 포함함

## 성능도 ‘공개라서 약하다’는 변명을 피했다

- 연구진은 메디트론FO로 여러 공개형 LLM을 의료 특화 모델로 재학습시켰고, 모든 모델이 원본 기반 모델보다 성능이 올랐다고 밝힘
  - 가장 좋은 결과를 낸 모델은 아페르투스-70B-메디트론FO임
  - 다양한 의료 시험 벤치마크에서 기존 기반 모델보다 6.6%포인트 높은 성능을 기록함

- 이 결과가 중요한 이유는 “투명하게 만들면 성능이 떨어지는 것 아니냐”는 반론을 정면으로 건드리기 때문임
  - 연구진은 완전 공개형 접근으로도 경쟁력 있는 의료 AI를 만들 수 있다고 봄
  - 의료 분야에서 투명성은 선택지가 아니라 필수 조건이라는 메시지도 같이 던짐

## 다음 단계는 실제 병원에서의 검증

- 메디트론FO 공개는 논문과 모델 공개로 끝나지 않음
  - 연구진은 메드유즈(MED.USE)라는 다년간 임상 연구 프로젝트를 추진함
  - 스위스와 탄자니아를 포함한 여러 국가 의료기관에서 진행될 예정임

- 검증하려는 질문도 꽤 현실적임
  - 의사들이 실제 진료 과정에서 AI 권고를 얼마나 수용하거나 거부하는지 봄
  - 그 의사결정이 환자 치료 결과에 어떤 영향을 주는지 분석함
  - 의료 AI가 진료 품질을 높이면서 불필요한 검사와 치료를 줄일 수 있는지도 평가함

- 큰 그림은 의료 AI의 주도권 문제임
  - 소수 빅테크와 상용 플랫폼이 의료 AI 시장을 빠르게 가져가는 상황에서 데이터 주권, 알고리즘 투명성, 의료 책임성 우려가 커지고 있음
  - 메디트론FO는 병원과 지역사회가 기술에 대한 통제권을 어느 정도 유지할 수 있는 경로를 제시함

---

## 기술 맥락

- 이번 선택의 핵심은 ‘모델을 공개한다’가 아니라 ‘모델을 다시 만들 수 있게 공개한다’는 쪽이에요. 의료 AI는 답이 맞았는지만 보는 게 부족하고, 어떤 데이터와 평가 절차를 거쳤는지 추적 가능해야 현장에서 신뢰할 수 있거든요.

- 메디트론FO가 의료진을 검증 과정에 넣은 이유도 여기에 있어요. 의료 데이터는 일반 웹 텍스트처럼 대량으로 모으면 끝나는 게 아니라, 실제 진료 맥락에서 위험한 답변인지 판단할 사람이 필요해요.

- 4만6000건 이상의 임상 진료 지침을 넣은 것도 단순 데이터 규모 경쟁이 아니에요. 의료 모델이 그럴듯한 말솜씨보다 표준 진료 근거를 따라야 하기 때문에, 학습 데이터의 출처와 정제 방식이 모델 품질의 일부가 돼요.

- 공개형 모델을 의료 특화로 다시 학습시키는 파이프라인을 만든 건 병원이나 연구기관 입장에서도 의미가 있어요. 특정 폐쇄형 API에 묶이지 않고, 규제나 보안 조건에 맞춰 검증 가능한 모델을 선택할 여지가 생기거든요.

## 핵심 포인트

- 메디트론FO는 의료 AI 개발 전 과정을 재현 가능하게 공개하는 완전 공개형 프레임워크다.
- 의사들이 데이터 선별, 모델 평가, 안전성 검증에 직접 참여하는 무브 검증 체계를 붙였다.
- 4만6000건 이상의 임상 진료 지침과 의료진 검토 합성 데이터를 학습에 활용했다.
- 아페르투스-70B-메디트론FO는 의료 시험 벤치마크에서 기반 모델보다 6.6%포인트 성능이 올랐다.
- 연구진은 스위스와 탄자니아 등 여러 국가 의료기관에서 실제 임상 연구도 추진한다.

## 인사이트

의료 AI에서 ‘오픈소스’가 단순히 모델 파일 공개로 끝나면 현장 검증에는 한계가 크다. 메디트론FO는 의료진이 감사할 수 있는 개발 과정을 공개했다는 점에서, 규제 산업용 AI를 어떻게 공개해야 하는지 꽤 좋은 기준점을 던진다.
