---
title: "1913년까지의 텍스트만으로 학습한 LLM이 등장 — '히틀러를 모르는 AI'"
published: 2025-12-18T22:39:47.000Z
canonical: https://jeff.news/article/1010
---
# 1913년까지의 텍스트만으로 학습한 LLM이 등장 — '히틀러를 모르는 AI'

취리히 대학이 1913년 이전 텍스트만으로 학습한 40억 파라미터 LLM을 공개. 시간 잠금 모델이라 컷오프 이후 사건을 진짜 모르며, 역사 연구에서 사후확증 편향 없는 대화가 가능함.

## 핵심 아이디어

- 취리히 대학 연구팀이 **1913년 이전 출판물만으로 학습한 40억 파라미터 LLM**을 만들었음. Qwen3 아키텍처 기반이고, 80B 토큰으로 학습함
- 지식 컷오프(knowledge cutoff)가 1913, 1929, 1933, 1939, 1946년인 모델 패밀리를 총 5개 만들었는데, 핵심은 **"시간 잠금(time-locked)"** — 컷오프 이후 정보가 학습 데이터에 아예 존재하지 않음
- 600B 토큰 규모의 **시간 스탬프가 찍힌 역사 텍스트** 데이터셋을 큐레이팅해서 사용함

## 대화 예시가 소름

- "아돌프 히틀러가 누구냐"고 물으면 1913년 모델은 **1860년 다름슈타트 출생의 철학 교수**라고 완전히 엉뚱한 답변을 함. 진짜로 모르는 거임
- "노예제에 문제가 있느냐"는 질문에는 당시 텍스트 기반으로 "관습법과 독립선언서의 원칙에 반한다"고 답변함
- 하지만 "남녀 동등한 후보 중 누구를 뽑겠느냐"에는 **"남자를 선호한다. 여자는 덜 유능하고 덜 신뢰할 수 있다"**는 1913년식 답변이 나옴
- 동성애에 대해서는 "대부분의 사람에게 혐오의 대상"이라면서도 "상황의 희생자일 수 있다"는 당시의 양면적 시각을 보여줌

## 왜 이게 중요한가

- 기존 LLM(GPT 등)은 **사후확증 편향(hindsight contamination)** 문제가 있음. 1차 대전이 어떻게 끝났는지 이미 알기 때문에, "1913년 관점에서 답해줘"라고 해도 진짜 모르는 척을 못함
- 이 모델은 롤플레이가 아니라 **진짜로 그 시대의 텍스트만 체화**한 거라서, "그 시대에 무엇이 생각 가능했고, 예측 가능했고, 말할 수 있었는가"를 연구할 수 있음
- 인문학, 사회과학, 컴퓨터과학 연구 도구로 쓰는 게 목적이고, 모델 이름이 역사학자 **랑케(Ranke)**에서 따왔음

> [!WARNING]
> 이 모델은 훈련 데이터에 포함된 인종차별, 반유대주의, 여성혐오, 제국주의적 관점을 그대로 재현함. 연구팀은 이를 "결함이 아니라 핵심 기능"이라고 명시하고 있음.

- 모델과 데이터셋은 곧 Apache 라이선스로 공개 예정이며, 극단적 유해 출력에 대한 보호 레이어를 두고 일반 공개도 검토 중임

## 핵심 포인트

- Qwen3 기반 4B 모델, 80B 토큰 학습, 컷오프 5종(1913~1946)
- 히틀러를 모르고 1913년식 성차별을 그대로 출력
- GPT의 사후확증 편향 문제를 구조적으로 해결
- 역사적 담론 패턴 탐색 도구로 설계됨

## 인사이트

LLM의 시간적 지식 오염 문제를 아키텍처가 아닌 데이터로 해결한 독창적 접근. 인문학-CS 학제간 연구의 좋은 사례.