---
title: "국가유산청, 고궁·관광 데이터 30만 건을 AI 학습용으로 푼다"
published: 2026-06-21T04:05:03.019Z
canonical: https://jeff.news/article/4155
---
# 국가유산청, 고궁·관광 데이터 30만 건을 AI 학습용으로 푼다

국가유산청이 창덕궁·덕수궁·창경궁 데이터와 주변 관광 정보를 묶어 AI 학습용 데이터셋을 만든다. 보고서, 이미지, 영상, 음원, 숙박·교통·음식점 정보까지 결합해 콘텐츠 제작과 생성형 AI 학습에 쓰기 좋은 형태로 정리하는 게 핵심이다. 정리된 데이터는 국가유산포털, 네이버, 허깅페이스 같은 국내외 플랫폼에 공개될 예정이다.

- 국가유산청이 고궁 데이터를 AI 학습용으로 다시 포장해서 공개하려는 중임
  - 대상은 창덕궁, 덕수궁, 창경궁 관련 데이터와 주변 관광자원 데이터
  - 자체 보유·관리 데이터만 최대 30만 건 규모로 언급됨
  - 보고서, 이미지, 영상, 음원 같은 문화유산 자료에 관광명소, 숙박시설, 교통정보, 음식점, 문화시설 정보까지 붙이는 방식임

- 포인트는 “문화재 아카이브 공개”가 아니라 “AI가 바로 읽고 쓸 수 있는 데이터셋”이라는 점임
  - 국가유산청은 이 데이터를 AI 학습에 친화적인 형태로 정리하겠다고 밝힘
  - 그냥 파일을 모아두는 게 아니라 출처가 명확하고 검증된 데이터로 만들겠다는 얘기
  - 데이터 전처리와 데이터셋 구축에 특화된 DB 제작·검색 서비스 기업이 작업을 맡을 예정임

> [!IMPORTANT]
> 최대 30만 건의 고궁·관광 데이터를 AI 학습용으로 정비하고, 국내 포털뿐 아니라 허깅페이스 같은 글로벌 AI 플랫폼에도 공개하는 게 이번 사업의 핵심임.

- 이 사업에는 생성형 AI의 한국 문화 왜곡을 줄이려는 의도도 깔려 있음
  - K-팝과 K-콘텐츠 영향으로 해외에서 한국 문화에 대한 관심이 커졌는데, 글로벌 생성형 AI 서비스에서 국가유산 정보가 틀리거나 왜곡되는 사례가 생길 수 있음
  - 국가유산청은 신뢰할 수 있는 출처 기반 데이터를 확보해 잘못된 콘텐츠 확산을 예방하겠다는 입장임
  - 쉽게 말하면 “AI가 한국 궁궐을 이상하게 배우기 전에, 제대로 된 교재를 먼저 깔자”는 흐름임

- 공개 경로도 꽤 실전적임
  - 정리된 데이터는 국가유산포털, 네이버 같은 국내 포털에 공개될 예정임
  - 글로벌 AI 오픈소스 플랫폼인 허깅페이스에도 공개를 추진함
  - 저작권 걱정 없이 고품질 국가유산 데이터를 활용한 콘텐츠 제작 생태계 활성화도 기대 포인트로 언급됨

- 개발자 입장에서는 관광·교육·콘텐츠 서비스에 바로 붙일 수 있는 재료가 늘어나는 셈임
  - 궁궐 이미지나 설명 데이터만 있는 게 아니라 주변 관광자원까지 묶이면 추천, 검색, 챗봇, 여행 플래너 같은 서비스에 쓰기 쉬워짐
  - 특히 출처가 명확한 공공 데이터라는 점은 상용 서비스에서 꽤 큰 장점임

---
## 기술 맥락

- 이번 선택의 핵심은 국가유산 데이터를 단순 공개가 아니라 AI 학습 가능한 형태로 바꾸는 거예요. 생성형 AI는 출처가 애매한 웹 데이터를 섞어 학습하면 문화재 이름, 위치, 역사적 맥락을 그럴듯하게 틀릴 수 있거든요.

- 국가유산청이 궁궐 데이터와 주변 관광 데이터를 같이 묶는 이유도 실용성 때문이에요. 궁궐 설명만 있으면 백과사전형 답변에 그치지만, 교통·숙박·음식점·문화시설까지 연결되면 실제 관광 콘텐츠나 추천 서비스로 확장하기 쉬워져요.

- 허깅페이스 공개를 염두에 둔 점도 중요해요. 국내 포털에만 올리면 접근성이 제한되지만, 글로벌 AI 개발자들이 쓰는 플랫폼에 올라가면 한국 국가유산 데이터가 해외 모델 실험과 서비스 개발에 직접 들어갈 수 있거든요.

- 결국 이 사업은 “좋은 데이터를 누가 먼저 표준처럼 제공하느냐”의 문제예요. 생성형 AI 시대에는 잘 정리된 원천 데이터가 콘텐츠 품질과 문화적 정확성을 같이 좌우하게 돼요.

## 핵심 포인트

- 창덕궁·덕수궁·창경궁 관련 데이터 최대 30만 건을 AI 학습용으로 정비
- 고궁 데이터와 관광명소·숙박·교통·음식점·문화시설 데이터를 결합
- 생성형 AI가 한국 국가유산을 왜곡해 학습하거나 생성하는 문제에 대응
- 정리된 데이터는 국가유산포털, 네이버, 허깅페이스 등에서 공개 예정

## 인사이트

이건 단순한 문화재 데이터 공개가 아니라, 생성형 AI 시대에 ‘한국 문화의 기준 데이터’를 누가 제공하느냐의 문제에 가까움. 허깅페이스까지 염두에 둔 건 꽤 현실적인 선택이고, 콘텐츠·관광·교육 쪽 개발자에게도 쓸 만한 원천 데이터가 될 가능성이 큼.
