---
title: "MRI 한 장으로 알츠하이머 인지 저하를 36개월 뒤까지 예측했다"
published: 2026-05-19T21:10:44.000Z
canonical: https://jeff.news/article/3007
---
# MRI 한 장으로 알츠하이머 인지 저하를 36개월 뒤까지 예측했다

연구진이 T1 MRI 한 장과 기본 인구통계 정보만으로 알츠하이머 진단, 뇌 조직 분할, 현재·미래 인지 점수를 동시에 예측하는 멀티태스크 앙상블 모델을 만들었다. 최고 모델은 진단 정확도 92.82%, 인지 점수 예측 R2 0.80~0.82, 외부 데이터셋에서도 R2 0.63을 기록했다. 핵심은 거대한 모델만 믿은 게 아니라 UNet, MedicalNet, XGBoost, 커스텀 감마 손실, 세그멘테이션 표현을 조합했다는 점이다.

## MRI 한 장으로 알츠하이머 예측을 어디까지 밀어붙였나

- 연구진이 목표로 잡은 건 단순한 알츠하이머 진단 분류가 아니라, MRI 한 장으로 현재와 미래의 인지 점수까지 예측하는 모델임
  - 입력은 기준 시점의 T1 MRI와 기본 인구통계 정보뿐임
  - 인구통계 정보는 나이, 성별, 교육연수, 결혼 여부 정도라서 병원에서 비교적 쉽게 확보 가능한 데이터임
  - 비싼 PET, 유전정보, 혈액·뇌척수액 바이오마커, 복잡한 인지검사 점수는 입력에서 일부러 뺐음

- 모델은 세 가지 일을 동시에 함: 뇌 조직 분할, 알츠하이머 진단, 인지 점수 예측
  - 조직 분할은 회백질(GM), 백질(WM), 뇌척수액(CSF)을 나누는 작업임
  - 진단은 알츠하이머 치매(AD)와 비알츠하이머군을 구분하는 이진 분류임
  - 핵심 타깃은 ADAS-Cog11이라는 인지 점수 예측이고, 이게 논문의 진짜 승부처임

> [!IMPORTANT]
> 이 논문의 포인트는 '진단 정확도 높음'이 아니라 '인지 점수라는 연속값을 MRI 한 장으로 꽤 잘 맞췄다'는 데 있음. 알츠하이머 AI 연구에서 진단 분류보다 훨씬 까다로운 문제임.

## 성능 숫자가 꽤 세다

- 최고 모델은 멀티태스크 UNet과 XGBoost를 합친 앙상블 모델임
  - 세그멘테이션 Dice 점수는 0.9740
  - 기준 시점 인지 점수 예측은 테스트 R2 0.80 수준
  - 진단 정확도는 별도 테스트셋 195명에서 92.82%를 기록함

- Tencent의 MedicalNet 기반 앙상블도 비슷하게 강했음
  - 세그멘테이션 Dice는 0.9654
  - 인지 점수 예측 R2는 0.82
  - 진단 정확도는 92.30%였음
  - 거대한 사전학습 모델만 압도적으로 이긴 게 아니라, 커스텀 3D UNet도 거의 비슷한 성능을 냈다는 게 흥미로움

- 미래 인지 저하 예측도 했다
  - 기준 시점 MRI와 인구통계 정보만으로 12개월, 24개월, 30개월, 36개월 뒤 인지 점수를 예측함
  - 기준 시점의 실제 인지 점수를 모르는 상황에서도 24개월 예측에서 Pearson R 0.7 초과, R2 약 0.6을 기록함
  - 36개월에서도 R2 약 0.5, P < 10^-6으로 유의미한 예측력을 유지함

## 왜 그냥 큰 딥러닝 모델이 아니라 조합 모델이었나

- 연구진은 이미지 모델과 표 데이터 모델을 분리해서 다뤘음
  - MRI는 UNet 또는 MedicalNet 같은 3D 딥러닝 모델이 처리함
  - 나이, 성별, 교육연수, 결혼 여부 같은 저차원 데이터는 XGBoost가 처리함
  - 이유는 간단함: 거대한 3D MRI 입력에 비해 표 데이터는 너무 작아서 딥러닝 모델 안에서 신호가 묻힐 수 있음

- 앙상블 가중치는 R2 기반으로 정함
  - UNet+XGBoost 조합에서는 대략 XGBoost가 30%, UNet이 70% 비중으로 작동한 것으로 분석됨
  - 즉, MRI가 주력 신호지만 인구통계 정보도 그냥 보조 장식은 아니었다는 뜻임

- 커스텀 감마 손실(Gamma loss)이 성능을 끌어올렸음
  - ADAS-Cog11 점수 분포가 감마 분포에 가깝다는 점을 손실 함수에 반영함
  - 일반 평균제곱오차(MSE) 대비 인지 예측 R2를 최대 0.05 개선함
  - 의료 데이터처럼 타깃 분포가 비대칭이고 잡음이 있는 곳에서는 이런 도메인 지식이 꽤 먹힌다는 사례임

> [!NOTE]
> 연구진은 데이터 누수를 막으려고 감마 손실의 분포 파라미터도 각 교차검증 split의 학습 코호트 안에서만 계산했다고 밝힘. 의료 AI 논문에서 이런 디테일 빠지면 결과 숫자를 믿기 어려워짐.

## 데이터셋과 검증 방식도 꽤 빡세게 잡았다

- 학습과 검증에는 ADNI와 HCP-YA를 썼음
  - ADNI는 1,950명 규모로, 알츠하이머 관련 MRI·진단·인지검사·인구통계 정보를 제공함
  - HCP-YA는 1,008명 규모로, 세그멘테이션 사전학습에 활용해 뇌 구조 다양성을 늘렸음
  - ADNI 전체 중 10%인 195명은 완전히 따로 떼어둔 테스트셋으로 남겼고, 나머지 1,755명은 9-fold 교차검증에 사용함

- 외부 데이터셋 DLBS에서도 테스트함
  - DLBS의 331명 데이터를 별도 재학습 없이 넣었을 때 ADAS-Cog 예측 R2 0.63을 기록함
  - 세그멘테이션 평균 Dice는 0.923이었음
  - ADNI보다 성능이 떨어지긴 했는데, 연구진은 스캐너 분포, 인구 구성, 촬영 파라미터 차이로 인한 도메인 시프트(domain shift)를 원인으로 봄

- 기존 FreeSurfer 기반 체적 특징보다 원본 MRI 직접 입력 방식이 더 강했음
  - 7개 주요 뇌 영역 체적을 쓰는 XGBoost는 평균 교차검증 R2 0.42, MAE 3.63
  - 86개 Desikan-Killiany 영역 체적을 쓰는 모델은 R2 0.53, MAE 3.46
  - 반면 최고 모델은 원본 T1 MRI 기반으로 R2 0.80대까지 올라감

## 해석 가능성도 그냥 Grad-CAM 한 장 던지고 끝낸 수준은 아님

- MRI가 가장 중요한 신호였고, 표 데이터 중에서는 나이가 강하게 작동함
  - 기준 시점 인지 예측에서는 나이, 결혼 여부, 회백질 부피가 중요한 특징으로 잡힘
  - 미래 인지 저하 예측에서는 나이와 교육연수가 특히 중요했음

- 오클루전 맵(occlusion map)으로 뇌의 어느 부위가 예측에 영향을 줬는지도 봤음
  - 후두정엽, 내측·외측 측두엽, 전두엽 피질이 주요 hotspot으로 나타남
  - 해마와 편도체도 높은 점수를 보였고, 알츠하이머 병리와 인지 기능 관련 기존 신경해부학 지식과 잘 맞음
  - 다만 hotspot이 특정 큰 이랑 경계 안에 깔끔하게 갇힌 게 아니라 다초점적으로 퍼져 있었다는 점도 강조함

- UNet 내부 표현도 분석함
  - receptive field 분석으로 모델이 MRI 패치를 어떤 중간 표현으로 묶는지 확인함
  - 중간 feature cluster가 인지 점수 그룹과 연결되는 양상을 보여줘서, 단순 블랙박스 예측보다 한 단계 더 설명하려고 했음

## 임상 적용 가능성은 있지만, 아직 '바로 병원 투입'은 아님

- 장점은 입력 조건이 현실적이라는 점임
  - MRI 한 장과 기본 인구통계만 있으면 되니, PET이나 유전검사보다 훨씬 접근성이 높음
  - 복잡한 FreeSurfer 같은 전처리 파이프라인 없이도 원본 MRI 기반 예측을 노림
  - 커뮤니티 병원이나 전문 인지검사 인력이 부족한 환경에서 보조 도구로 쓸 가능성을 언급함

- 하지만 실제 임상 도입에는 추가 검증이 필요함
  - ADNI와 DLBS 모두 공개 연구 데이터셋이라 실제 병원 운영 환경과는 차이가 있음
  - 데이터셋 간 도메인 시프트가 이미 성능 하락으로 나타났음
  - 알츠하이머 외 파킨슨병, 루게릭병, 헌팅턴병 같은 다른 신경퇴행성 질환으로 확장 가능성은 있지만 아직은 가능성 단계임

---

## 기술 맥락

- 이 연구가 고른 핵심 선택은 '단일 모델 하나로 끝내기'가 아니라 멀티태스크 앙상블이에요. MRI에서 조직 분할을 배우면 뇌 구조를 압축한 표현이 생기고, 그 표현이 인지 점수 예측에도 도움이 되기 때문이에요.

- XGBoost를 따로 붙인 이유도 꽤 현실적이에요. 3D MRI는 차원이 엄청 큰데 나이, 성별, 교육연수 같은 표 데이터는 작아서 딥러닝 입력에 그냥 섞으면 영향력이 묻힐 수 있거든요. 그래서 이미지 모델과 표 데이터 모델을 나눠 학습하고 R2 기준으로 합친 거예요.

- 커스텀 Gamma loss는 이 논문에서 성능을 만든 중요한 도메인 지식이에요. ADAS-Cog 점수는 깔끔한 정규분포라고 보기 어렵기 때문에, 실제 점수 분포를 손실 함수에 반영하면 모델이 더 그럴듯한 예측 범위에 머물 수 있어요.

- 외부 DLBS 데이터셋에서 R2 0.63으로 떨어진 대목도 중요해요. 논문 안에서는 성공적인 일반화로 제시되지만, 동시에 스캐너와 촬영 조건이 달라지면 의료 AI 성능이 바로 흔들린다는 걸 보여주거든요. 실제 제품화에서는 병원별 보정과 지속적인 외부 검증이 핵심이 될 가능성이 커요.

## 핵심 포인트

- 단일 MRI와 나이·성별·교육연수·결혼 여부만으로 알츠하이머 관련 여러 과제를 동시에 예측했다
- 최고 앙상블 모델은 세그멘테이션 Dice 0.9740, 진단 정확도 92.82%, 인지 점수 예측 R2 0.80 수준을 냈다
- 기준 시점 인지 점수를 모르는 상황에서도 24개월 뒤 예측에서 Pearson R 0.7 초과, R2 약 0.6을 기록했다
- 외부 DLBS 데이터셋 331명 테스트에서 재학습 없이 R2 0.63, Dice 0.923을 기록해 일반화 가능성을 확인했다
- FreeSurfer 기반 체적 특징보다 원본 MRI를 직접 쓰는 모델이 더 강했고, 도메인 지식 기반 커스텀이 성능 차이를 만들었다

## 인사이트

의료 AI에서 중요한 건 '큰 모델을 가져다 쓰면 끝'이 아니라 데이터가 적고 잡음이 큰 환경에서 어떤 보조 과제를 붙이고 어떤 손실 함수를 설계하느냐다. 이 논문은 MRI 기반 예측을 임상에 더 가까운 입력 조건으로 끌고 왔다는 점에서 꽤 실용적인 신호다.