---
title: "극한 기상 예측에서는 아직 AI보다 물리 기반 수치예보가 강하다는 연구"
published: 2026-04-30T07:05:01.952Z
canonical: https://jeff.news/article/1972
---
# 극한 기상 예측에서는 아직 AI보다 물리 기반 수치예보가 강하다는 연구

스위스 제네바대 연구팀이 유럽중기예보센터의 수치예보 모델과 구글 그래프캐스트 등 최신 AI 기상예보 모델 5개를 비교한 결과, 폭염·한파·강풍 같은 극한 기상에서는 물리 기반 모델이 더 안정적인 성능을 보였음. AI 모델은 일반적인 날씨 예측에서는 강하지만, 학습 데이터 범위를 벗어난 전례 없는 사건에서는 한파를 과대평가하거나 폭염을 과소평가하는 한계를 드러냄.

- AI 기상예보 모델이 꽤 잘나가고 있지만, 폭염·한파·강풍 같은 극한 기상에서는 아직 물리 기반 수치예보가 더 강하다는 연구가 나옴
  - 스위스 제네바대 장 중웨이, 제바스티안 엥겔케 교수팀이 분석함
  - 연구 결과는 29일 현지시간 국제학술지 사이언스 어드밴시스(Science Advances)에 공개됨

- 비교 대상은 유럽중기예보센터(ECMWF)의 수치예보 모델과 최신 AI 예보 모델들임
  - AI 쪽에는 구글 그래프캐스트(GraphCast), 중국 화웨이 판구-웨더(Pangu-Weather), 푸단대 푸시(FuXi) 등이 포함됨
  - 총 5개 AI 모델이 비교 대상에 들어감
  - 기준이 된 물리 기반 모델은 ECMWF의 고해상도기상예보(HRES) 모델임

- 연구팀은 2018년과 2020년에 발생한 극한 한파, 폭염, 강풍 사건을 테스트 케이스로 삼음
  - 일반적인 날씨가 아니라 평상시 데이터에서 크게 벗어난 이벤트를 얼마나 잘 맞히는지가 핵심임
  - 기후변화로 기록적 폭염과 폭우가 늘어나는 상황이라, 이런 꼬리 위험 예측은 재난 대응과 바로 연결됨

> [!IMPORTANT]
> 평균적인 날씨 예측 성능이 좋아도, 극한 기상에서 틀리면 조기 경보와 재난관리에서는 치명적임. 이 연구의 핵심은 “AI가 평소엔 잘 맞히는데, 진짜 위험한 순간에도 믿을 수 있냐”는 질문임.

- 결과는 AI 모델 쪽에 꽤 뼈아픔
  - AI 모델들은 한파를 과대평가하거나 폭염을 과소평가하는 식으로 흔들림
  - 전반적인 예측 정확도는 HRES보다 떨어졌다고 연구팀은 분석함
  - 일반 기상현상에서는 최신 AI 모델이 수치예보를 앞서는 경우가 있지만, 극한 기상에서는 얘기가 달랐음

- 원인으로 지목된 건 학습 데이터의 범위임
  - AI 모델들은 주로 1979년부터 2017년까지의 데이터셋으로 학습됨
  - 그런데 전례 없는 극한 사건은 이 학습 분포 밖에 있을 가능성이 큼
  - 예측 기간이 짧아도, 모델이 본 적 없는 패턴이면 제대로 일반화하기 어렵다는 것임

- 반대로 수치예보 모델은 물리 방정식을 기반으로 계산하기 때문에 이런 상황에서 버티는 힘이 있음
  - 대기의 움직임 같은 요소를 복잡한 방정식으로 모델링하고 현재 변수를 넣어 미래 상태를 계산함
  - 기존 통계에서 벗어난 상황이어도, 물리 법칙을 따라 계산한다는 점이 강점으로 작동함

> [!WARNING]
> 조기 경보 시스템이나 재난관리에서 AI 기상 모델을 바로 믿고 쓰려면 더 엄격한 검증이 필요함. 특히 학습 데이터 밖 사건을 얼마나 버티는지가 핵심 체크포인트임.

- 개발자 관점에서 이 연구는 기상 분야만의 얘기가 아님
  - 머신러닝 모델이 평균 성능에서 좋아 보여도, 운영 환경의 드문 실패 케이스에서는 완전히 다른 결과가 나올 수 있음
  - 특히 안전, 재난, 의료, 금융처럼 실패 비용이 큰 분야에서는 분포 밖 예측을 따로 검증해야 함

---

## 기술 맥락

- 이번 연구의 핵심 선택은 AI 예보 모델을 평균적인 날씨가 아니라 극한 사건으로 테스트했다는 점이에요. 평소 날씨를 잘 맞히는 모델이라도 재난 상황에서 틀리면 실제 운영 가치는 확 떨어지거든요.

- AI 기상 모델은 과거 데이터의 패턴을 학습해 빠르게 예측하는 쪽에 강해요. 그래서 일반적인 기상 예측에서는 좋은 성능을 보일 수 있지만, 1979년부터 2017년까지의 학습 데이터에 충분히 없던 사건을 만나면 판단 근거가 약해져요.

- HRES 같은 수치예보 모델은 접근이 달라요. 대기 물리 방정식에 현재 상태를 넣고 미래를 계산하기 때문에, 통계적으로 드문 상황에서도 물리 법칙을 따라갈 여지가 있어요.

- 이 차이는 운영 시스템 설계에도 중요해요. AI 모델을 빠른 예측 엔진으로 쓰더라도, 조기 경보나 재난관리처럼 실패 비용이 큰 레이어에서는 물리 기반 모델과 교차 검증하거나 극한 케이스 전용 평가를 붙여야 해요.

- 결국 여기서의 교훈은 “AI가 더 빠르고 평균적으로 좋아 보인다”와 “위험한 순간에 믿을 수 있다”가 같은 말이 아니라는 거예요.

## 핵심 포인트

- 제네바대 연구팀이 2018년과 2020년의 극한 한파, 폭염, 강풍 사건을 대상으로 AI 예보 모델과 수치예보 모델을 비교함
- 구글 그래프캐스트, 화웨이 판구-웨더, 푸단대 푸시 등 AI 모델 5개가 유럽중기예보센터 HRES보다 극한 기상 예측에서 전반적으로 떨어짐
- 연구팀은 AI 모델이 1979년부터 2017년까지의 학습 데이터 범위를 벗어난 사건을 예측할 때 한계를 보인다고 분석함

## 인사이트

AI 예보 모델이 평균적인 날씨 예측에서 강해진 건 맞지만, 재난 대응처럼 꼬리 위험을 잡아야 하는 영역에서는 “훈련 데이터 밖” 문제가 바로 치명상이 됨. AI를 운영 시스템에 넣을 때 평균 성능만 보면 안 되고, 가장 드문 상황에서 얼마나 망가지는지까지 봐야 한다는 꽤 센 경고임.