---
title: "노르웨이 국립도서관, 60페타바이트 문화유산으로 ‘주권 LLM’ 만든다"
published: 2026-05-25T19:37:57.000Z
canonical: https://jeff.news/article/3273
---
# 노르웨이 국립도서관, 60페타바이트 문화유산으로 ‘주권 LLM’ 만든다

노르웨이 국립도서관이 노르웨이어와 자국 문화에 특화된 대규모 언어 모델(LLM)을 만들고 있다. 병목은 GPU가 아니라 60페타바이트급 보존 아카이브에서 학습용 데이터 파이프라인으로 데이터를 옮기고 정제하는 일이었고, 이를 위해 2페타바이트 규모 화웨이 올플래시 스토리지를 투입했다.

## 노르웨이가 ‘자기 언어 LLM’을 직접 만드는 이유

- 노르웨이 국립도서관이 노르웨이어를 제대로 이해하는 대규모 언어 모델(LLM)을 만들고 있음
  - 발표자는 국립도서관 IT 플랫폼 책임자인 마리우스 후스네스(Marius Husnes)
  - 상업 LLM 업체들이 노르웨이어 특화 모델을 만들고 있지 않다는 게 출발점임
  - 영어권 글로벌 모델은 노르웨이어로 기록된 역사, 뉴스, 문화 맥락을 충분히 알기 어렵다는 문제의식이 깔려 있음

- 이 프로젝트는 그냥 연구실 장난감이 아니라 노르웨이 문화부가 맡긴 ‘주권 AI’ 프로젝트임
  - 담당 기관이 국립도서관인 이유가 명확함. 노르웨이 책, 신문, 웹페이지, 방송 콘텐츠를 가장 크게 모아둔 곳이기 때문
  - 법정 납본 제도 덕분에 출판물과 방송 자료를 수집·보존할 권한이 있고, 문화유산 전체를 다루는 기관이라는 점도 큼
  - 노르웨이 신문사들과는 저작권 콘텐츠를 LLM 학습에 쓸 수 있도록 별도 합의도 맺었다고 함. 후스네스는 “민간 기업에는 이게 없다”고 못 박음

> [!IMPORTANT]
> 이 프로젝트의 포인트는 ‘노르웨이어 챗봇 하나 만들자’가 아니라, 국가가 가진 문화 데이터와 저작권 데이터를 이용해 비영어권 AI 주권을 확보하려는 시도라는 점임.

## 진짜 병목은 GPU가 아니라 데이터 파이프라인

- 국립도서관은 2005년부터 자료를 디지털화해왔고, 이미 규모가 꽤 미쳤음
  - 고유 데이터만 20페타바이트(PB)
  - 3-2-1 방식으로 보관해서 전체 보존 규모는 약 60페타바이트
  - 원천 데이터는 텍스트, 음성, 영상, 이미지, 웹 콘텐츠까지 섞여 있음
  - 디지털화 과정에서 OCR 스캔과 메타데이터, 온라인 접근용 API도 같이 쌓임

- 후스네스가 말한 핵심 병목은 컴퓨트가 아니라 데이터 품질, 정제, 처리량이었음
  - 보존 아카이브는 오래 안전하게 보관하는 데 최적화돼 있어서 읽기 지연시간이 높음
  - 반대로 AI 파이프라인은 낮은 지연시간, 높은 처리량, 병렬 입출력이 필요함
  - 결국 “아카이브에 있는 페타바이트급 데이터를 AI 학습 파이프라인으로 어떻게 옮기고 통과시키냐”가 진짜 문제였다는 얘기

- 그래서 학습 전처리 환경과 실제 학습 환경을 나눠 구성함
  - 1단계는 내부 전처리 환경. 엔비디아 DGX H200, 384코어 CPU 클러스터, 화웨이 OceanStor Dorado 올플래시 배열을 사용함
  - 화웨이 플래시 스토리지는 총 2페타바이트 규모고, 데이터 파이프라인과 학습 준비용 저지연 스토리지 역할을 맡음
  - 파이프라인에서는 수집, 정제, 중복 제거, 포맷 정규화, 검증, 학습 준비가 이어짐

```mermaid
sequenceDiagram
    participant 보존아카이브
    participant 내부전처리환경
    participant 플래시스토리지
    participant 국가슈퍼컴퓨터
    participant 평가도구
    보존아카이브->>내부전처리환경: 원천 데이터 전달
    내부전처리환경->>플래시스토리지: 정제·중복제거·정규화 데이터 저장
    플래시스토리지->>내부전처리환경: 저지연 병렬 입출력 제공
    내부전처리환경->>국가슈퍼컴퓨터: 학습용 데이터 전송
    국가슈퍼컴퓨터->>평가도구: 노르웨이어 모델 평가
```

## 학습은 국가 슈퍼컴퓨터로 넘김

- 실제 학습은 노르웨이 국가 슈퍼컴퓨터 Sigma2 Olivia에서 진행됨
  - 시스템은 HPE Cray Supercomputing EX
  - GPU 448개, CPU 코어 64,512개를 갖춤
  - 스토리지는 5.3페타바이트 Cray ClusterStor E1000

- 여기서 재미있는 건 ‘한 시스템으로 다 해결’이 아니라 세 시스템을 엮어야 한다는 점임
  - 장기 보존용 아카이브
  - 온프레미스 AI 전처리 환경
  - 국가 슈퍼컴퓨터 학습 환경
  - 후스네스 팀은 이 셋을 매끄럽게 오케스트레이션하는 방법을 아직도 배우는 중이라고 함

- 평가도 만만치 않음
  - 노르웨이어에는 두 가지 표기 체계가 있고, 여러 방언과 역사적 변화가 있음
  - 그래서 “주권 노르웨이어 LLM이 잘하는지”를 재는 표준 평가 도구가 마땅치 않음
  - 팀은 평가 도구도 진행하면서 직접 만들고 있음

> [!NOTE]
> 비영어권 LLM은 단순히 토큰을 더 넣는 문제가 아님. 언어 표기, 방언, 시대별 문체, 저작권, 공공기관 거버넌스가 한꺼번에 터지는 인프라 프로젝트에 가까움.

## 아직 남은 질문들

- 거버넌스 문제가 꽤 큼
  - 주권 LLM의 접근 권한을 누가 통제할지
  - 어떤 용도로 쓸 수 있는지 누가 결정할지
  - 이건 엔지니어링만으로 끝나는 문제가 아니라 제도와 정치의 영역까지 감

- 화웨이 스토리지가 유럽 AI 인프라에서 꽤 진지한 역할을 하고 있다는 점도 눈에 띔
  - 기사 작성자는 2페타바이트 화웨이 플래시 스토리지 도입을 유럽 시장에서 의미 있는 신호로 봄
  - AI 인프라 얘기가 GPU 중심으로만 흘러가지만, 실제 현장에서는 스토리지와 데이터 파이프라인이 성패를 가르는 경우가 많다는 얘기이기도 함

- 결론은 비영어권 국가들이 피하기 어려운 질문으로 이어짐
  - “우리 언어, 우리 문화, 우리 역사를 반영하는 AI는 누가 만들고 누가 관리할 것인가”
  - 후스네스의 표현대로 AI에는 빌더뿐 아니라 커스터디언, 즉 관리·보존 책임자도 필요하다는 메시지임

---

## 기술 맥락

- 이 프로젝트에서 선택한 구조는 보존 아카이브와 학습 파이프라인을 분리하는 방식이에요. 60페타바이트 보존 시스템은 오래, 싸게, 안전하게 두는 데 맞춰져 있어서 AI 학습처럼 계속 읽고 정제하는 작업에는 느릴 수밖에 없거든요.

- 그래서 국립도서관은 중간에 2페타바이트 올플래시 스토리지를 둬요. 원천 데이터는 보존 시스템에 두고, 학습에 필요한 데이터는 정제·중복제거·정규화 과정을 거쳐 빠른 스토리지에서 처리하는 식이에요. 왜냐하면 LLM 학습 전에는 모델보다 데이터 파이프라인이 먼저 막히는 경우가 많기 때문이에요.

- 실제 학습을 국가 슈퍼컴퓨터 Sigma2 Olivia로 넘긴 것도 역할 분리가 분명해요. 내부 환경은 데이터 준비에 집중하고, GPU 448개짜리 슈퍼컴퓨터는 학습 실행에 집중하는 거죠. 이렇게 해야 보존, 전처리, 학습을 각각의 제약에 맞게 운영할 수 있어요.

- 평가 도구를 직접 만드는 것도 중요한 선택이에요. 노르웨이어는 표기 체계가 둘이고 방언과 시대별 표현 차이도 있어서, 영어권 벤치마크만으로는 모델 품질을 제대로 판단하기 어렵거든요. 비영어권 LLM에서는 평가 자체가 인프라의 일부가 되는 셈이에요.

## 핵심 포인트

- 노르웨이는 상업 LLM이 자국 언어와 문화 맥락을 충분히 반영하지 못한다고 보고 ‘주권 AI’를 국립도서관에 맡김
- 국립도서관은 2005년부터 책, 신문, 방송, 웹 콘텐츠를 디지털화해 고유 데이터 20페타바이트, 전체 보관 기준 60페타바이트를 보유
- 학습 준비 파이프라인은 엔비디아 DGX H200, 384코어 CPU 클러스터, 2페타바이트 화웨이 OceanStor Dorado 올플래시 배열에서 돌림
- 실제 학습은 GPU 448개와 CPU 코어 64,512개를 갖춘 노르웨이 국가 슈퍼컴퓨터 Sigma2 Olivia에서 진행
- 평가, 거버넌스, 보존 아카이브와 AI 파이프라인 오케스트레이션이 아직 풀어야 할 핵심 과제

## 인사이트

비영어권 국가가 자체 LLM을 만들 때 제일 먼저 부딪히는 문제는 ‘모델을 뭘로 돌리냐’보다 ‘믿을 만한 언어 데이터를 어떻게 모으고, 정제하고, 빠르게 흘려보내냐’에 가깝다. 한국도 공공 데이터와 저작권 데이터, 방언·역사 자료까지 생각하면 꽤 남 얘기가 아니다.