본문으로 건너뛰기
피드

국가유산청, 고궁·관광 데이터 30만 건을 AI 학습용으로 푼다

ai-ml 약 5분
vote
0
댓글
북마크

국가유산청이 창덕궁·덕수궁·창경궁 데이터와 주변 관광 정보를 묶어 AI 학습용 데이터셋을 만든다. 보고서, 이미지, 영상, 음원, 숙박·교통·음식점 정보까지 결합해 콘텐츠 제작과 생성형 AI 학습에 쓰기 좋은 형태로 정리하는 게 핵심이다. 정리된 데이터는 국가유산포털, 네이버, 허깅페이스 같은 국내외 플랫폼에 공개될 예정이다.

  • 1

    창덕궁·덕수궁·창경궁 관련 데이터 최대 30만 건을 AI 학습용으로 정비

  • 2

    고궁 데이터와 관광명소·숙박·교통·음식점·문화시설 데이터를 결합

  • 3

    생성형 AI가 한국 국가유산을 왜곡해 학습하거나 생성하는 문제에 대응

  • 4

    정리된 데이터는 국가유산포털, 네이버, 허깅페이스 등에서 공개 예정

  • 국가유산청이 고궁 데이터를 AI 학습용으로 다시 포장해서 공개하려는 중임

    • 대상은 창덕궁, 덕수궁, 창경궁 관련 데이터와 주변 관광자원 데이터
    • 자체 보유·관리 데이터만 최대 30만 건 규모로 언급됨
    • 보고서, 이미지, 영상, 음원 같은 문화유산 자료에 관광명소, 숙박시설, 교통정보, 음식점, 문화시설 정보까지 붙이는 방식임
  • 포인트는 “문화재 아카이브 공개”가 아니라 “AI가 바로 읽고 쓸 수 있는 데이터셋”이라는 점임

    • 국가유산청은 이 데이터를 AI 학습에 친화적인 형태로 정리하겠다고 밝힘
    • 그냥 파일을 모아두는 게 아니라 출처가 명확하고 검증된 데이터로 만들겠다는 얘기
    • 데이터 전처리와 데이터셋 구축에 특화된 DB 제작·검색 서비스 기업이 작업을 맡을 예정임

중요

> 최대 30만 건의 고궁·관광 데이터를 AI 학습용으로 정비하고, 국내 포털뿐 아니라 허깅페이스 같은 글로벌 AI 플랫폼에도 공개하는 게 이번 사업의 핵심임.

  • 이 사업에는 생성형 AI의 한국 문화 왜곡을 줄이려는 의도도 깔려 있음

    • K-팝과 K-콘텐츠 영향으로 해외에서 한국 문화에 대한 관심이 커졌는데, 글로벌 생성형 AI 서비스에서 국가유산 정보가 틀리거나 왜곡되는 사례가 생길 수 있음
    • 국가유산청은 신뢰할 수 있는 출처 기반 데이터를 확보해 잘못된 콘텐츠 확산을 예방하겠다는 입장임
    • 쉽게 말하면 “AI가 한국 궁궐을 이상하게 배우기 전에, 제대로 된 교재를 먼저 깔자”는 흐름임
  • 공개 경로도 꽤 실전적임

    • 정리된 데이터는 국가유산포털, 네이버 같은 국내 포털에 공개될 예정임
    • 글로벌 AI 오픈소스 플랫폼인 허깅페이스에도 공개를 추진함
    • 저작권 걱정 없이 고품질 국가유산 데이터를 활용한 콘텐츠 제작 생태계 활성화도 기대 포인트로 언급됨
  • 개발자 입장에서는 관광·교육·콘텐츠 서비스에 바로 붙일 수 있는 재료가 늘어나는 셈임

    • 궁궐 이미지나 설명 데이터만 있는 게 아니라 주변 관광자원까지 묶이면 추천, 검색, 챗봇, 여행 플래너 같은 서비스에 쓰기 쉬워짐
    • 특히 출처가 명확한 공공 데이터라는 점은 상용 서비스에서 꽤 큰 장점임

기술 맥락

  • 이번 선택의 핵심은 국가유산 데이터를 단순 공개가 아니라 AI 학습 가능한 형태로 바꾸는 거예요. 생성형 AI는 출처가 애매한 웹 데이터를 섞어 학습하면 문화재 이름, 위치, 역사적 맥락을 그럴듯하게 틀릴 수 있거든요.

  • 국가유산청이 궁궐 데이터와 주변 관광 데이터를 같이 묶는 이유도 실용성 때문이에요. 궁궐 설명만 있으면 백과사전형 답변에 그치지만, 교통·숙박·음식점·문화시설까지 연결되면 실제 관광 콘텐츠나 추천 서비스로 확장하기 쉬워져요.

  • 허깅페이스 공개를 염두에 둔 점도 중요해요. 국내 포털에만 올리면 접근성이 제한되지만, 글로벌 AI 개발자들이 쓰는 플랫폼에 올라가면 한국 국가유산 데이터가 해외 모델 실험과 서비스 개발에 직접 들어갈 수 있거든요.

  • 결국 이 사업은 “좋은 데이터를 누가 먼저 표준처럼 제공하느냐”의 문제예요. 생성형 AI 시대에는 잘 정리된 원천 데이터가 콘텐츠 품질과 문화적 정확성을 같이 좌우하게 돼요.

이건 단순한 문화재 데이터 공개가 아니라, 생성형 AI 시대에 ‘한국 문화의 기준 데이터’를 누가 제공하느냐의 문제에 가까움. 허깅페이스까지 염두에 둔 건 꽤 현실적인 선택이고, 콘텐츠·관광·교육 쪽 개발자에게도 쓸 만한 원천 데이터가 될 가능성이 큼.

댓글

댓글

댓글을 불러오는 중...

ai-ml

스노우플레이크, 한국 행사서 기업용 AI 데이터 클라우드와 업무 에이전트 공개

스노우플레이크가 서울에서 열리는 딜로이트 커넥트 코리아 2026에 참여해 기업용 AI 데이터 클라우드 전략을 소개함. 핵심 메시지는 AI 도입의 병목이 모델 자체보다 데이터 품질, 거버넌스, 보안, 비용을 한 플랫폼에서 다루는 준비도에 있다는 쪽임.

ai-ml

LG CNS·두산, AI·로봇·데이터센터까지 묶어 신사업 협력

LG CNS와 두산이 AX, RX, 데이터센터, 클라우드 분야에서 전방위 협력에 나선다. LG CNS의 에이전틱AI 플랫폼과 클라우드·데이터센터 역량, 두산의 에너지·첨단소재·제조 기반을 결합해 제조AX와 로봇, 수소연료전지 데이터센터 활용까지 검토한다는 내용이다.

ai-ml

LG CNS, 오픈AI·앤트로픽·팔란티어 묶고 기업 AI 전환 시장 정조준

LG CNS가 오픈AI, 앤트로픽, 팔란티어와 잇따라 파트너십을 맺으며 국내 기업용 AI 전환 시장을 공략하고 있다. 단순 SI 기업 이미지에서 벗어나 클라우드와 AI 중심 사업자로 체질을 바꾸고 있으며, 클라우드&AI 부문 매출 비중도 58.2%까지 올라왔다.

ai-ml

유클릭스, 기업용 제미나이 체험센터 열고 PoC 이후 공백 노린다

유클릭스가 과천 사옥에 ‘구글 제미나이 엔터프라이즈 익스피리언스 센터’를 열었다. 기업들이 생성형 AI에 관심은 많지만 실제 운영으로 못 넘어가는 문제를 겨냥해, 체험·워크숍·PoC·업무 적용까지 이어지는 모델을 제공하겠다는 내용이다.

ai-ml

구글·AWS, 엔비디아식으로 AI 칩 팔기 시작했다

구글과 AWS가 자체 클라우드 안에서만 쓰던 AI 칩을 외부 데이터센터와 기업 고객에게 팔려는 움직임을 키우고 있다. 구글은 TPU 판매에 금융 보증까지 붙이고, AWS는 트레이니움 칩 외부 판매 가능성을 공개적으로 언급했다. 엔비디아 GPU 독점 구도에 균열이 날지 보는 포인트다.