---
title: "방송영상 2만3천 시간, 국내 AI 학습데이터로 풀린다"
published: 2026-05-07T07:05:02.118Z
canonical: https://jeff.news/article/2258
---
# 방송영상 2만3천 시간, 국내 AI 학습데이터로 풀린다

방송미디어통신위원회가 뉴스·다큐·드라마 등 방송 영상 2만3천113시간과 약 460만 개 데이터셋을 AI 학습용으로 구축했다. 총 200억 원이 투입됐고, 방송 콘텐츠 제작뿐 아니라 제조·의료·재난·교통 같은 산업용 AI 개발에도 쓰겠다는 그림이다.

- 방미통위가 방송영상 AI 학습용 데이터를 2만3천113시간 규모로 구축함
  - 뉴스, 다큐멘터리, 드라마 등 방송사가 보유한 영상 자료를 AI가 학습할 수 있는 데이터로 바꾼 사업임
  - 데이터셋 수로 보면 약 460만 개라서, 단순히 영상 파일을 모은 수준은 아니고 가공·분류 작업이 꽤 들어간 프로젝트로 보임

- 원천 자료는 훨씬 컸고, 최종 데이터는 선별 과정을 거쳐 나옴
  - 방송 원본 데이터는 200만 시간 이상이었고, 이 중 약 4만 시간을 골라 가공함
  - 최종적으로 AI 학습에 쓸 수 있는 형태로 정리된 분량이 2만3천113시간임
  - 총사업비는 200억 원이 투입됨

- 정부가 보는 활용처는 방송 제작 자동화에만 갇혀 있지 않음
  - 방송 콘텐츠 제작 효율을 높이는 AI 서비스가 1차 타깃임
  - 여기에 제조, 의료, 재난, 교통 같은 산업 분야 AI 개발에도 활용될 수 있다고 봄
  - 영상 기반 상황 인식, 장면 분석, 음성·자막 결합 처리 같은 쪽에서 쓸 여지가 있음

- 참여 면면을 보면 방송사와 AI 인프라 쪽이 같이 붙어 있음
  - KBS, MBC, MBC충북, KT ENA 같은 방송사가 주관 방송사로 참여함
  - 네이버클라우드, LG AI연구원 관계자도 성과공유회에 참석함
  - 한국어권 영상 데이터가 필요한 모델·서비스 입장에서는 꽤 관심 갈 만한 움직임임

- 진짜 관건은 ‘만들었다’ 다음 단계임
  - 학습데이터는 양도 중요하지만 라벨 품질, 접근 조건, 라이선스, 업데이트 주기가 더 중요해지는 경우가 많음
  - 특히 방송 영상은 저작권과 초상권 이슈가 얽히기 쉬워서, 실제 기업·연구자가 얼마나 자유롭게 쓸 수 있을지가 핵심임

## 핵심 포인트

- 방송 원본 200만 시간 이상 중 약 4만 시간을 선별·가공해 최종 2만3천113시간 데이터 구축
- 데이터셋 규모는 약 460만 개로, 방송사 보유 영상 자료를 AI 학습용 자산으로 전환한 사업
- KBS, MBC, KT ENA, 네이버클라우드, LG AI연구원 등 방송·AI 업계가 참여

## 인사이트

국내 AI 생태계에서 늘 부족하다고 말하던 게 ‘한국어·한국 문화권 고품질 멀티모달 데이터’인데, 방송 영상은 그 빈칸을 꽤 크게 메울 수 있는 재료다. 다만 실제 활용 가치는 공개 범위, 라이선스, 라벨 품질이 어디까지 따라오느냐에 달려 있음.
