본문으로 건너뛰기
피드

방송영상 2만3천 시간, 국내 AI 학습데이터로 풀린다

ai-ml 약 3분
vote
0
댓글
북마크

방송미디어통신위원회가 뉴스·다큐·드라마 등 방송 영상 2만3천113시간과 약 460만 개 데이터셋을 AI 학습용으로 구축했다. 총 200억 원이 투입됐고, 방송 콘텐츠 제작뿐 아니라 제조·의료·재난·교통 같은 산업용 AI 개발에도 쓰겠다는 그림이다.

  • 1

    방송 원본 200만 시간 이상 중 약 4만 시간을 선별·가공해 최종 2만3천113시간 데이터 구축

  • 2

    데이터셋 규모는 약 460만 개로, 방송사 보유 영상 자료를 AI 학습용 자산으로 전환한 사업

  • 3

    KBS, MBC, KT ENA, 네이버클라우드, LG AI연구원 등 방송·AI 업계가 참여

  • 방미통위가 방송영상 AI 학습용 데이터를 2만3천113시간 규모로 구축함

    • 뉴스, 다큐멘터리, 드라마 등 방송사가 보유한 영상 자료를 AI가 학습할 수 있는 데이터로 바꾼 사업임
    • 데이터셋 수로 보면 약 460만 개라서, 단순히 영상 파일을 모은 수준은 아니고 가공·분류 작업이 꽤 들어간 프로젝트로 보임
  • 원천 자료는 훨씬 컸고, 최종 데이터는 선별 과정을 거쳐 나옴

    • 방송 원본 데이터는 200만 시간 이상이었고, 이 중 약 4만 시간을 골라 가공함
    • 최종적으로 AI 학습에 쓸 수 있는 형태로 정리된 분량이 2만3천113시간임
    • 총사업비는 200억 원이 투입됨
  • 정부가 보는 활용처는 방송 제작 자동화에만 갇혀 있지 않음

    • 방송 콘텐츠 제작 효율을 높이는 AI 서비스가 1차 타깃임
    • 여기에 제조, 의료, 재난, 교통 같은 산업 분야 AI 개발에도 활용될 수 있다고 봄
    • 영상 기반 상황 인식, 장면 분석, 음성·자막 결합 처리 같은 쪽에서 쓸 여지가 있음
  • 참여 면면을 보면 방송사와 AI 인프라 쪽이 같이 붙어 있음

    • KBS, MBC, MBC충북, KT ENA 같은 방송사가 주관 방송사로 참여함
    • 네이버클라우드, LG AI연구원 관계자도 성과공유회에 참석함
    • 한국어권 영상 데이터가 필요한 모델·서비스 입장에서는 꽤 관심 갈 만한 움직임임
  • 진짜 관건은 ‘만들었다’ 다음 단계임

    • 학습데이터는 양도 중요하지만 라벨 품질, 접근 조건, 라이선스, 업데이트 주기가 더 중요해지는 경우가 많음
    • 특히 방송 영상은 저작권과 초상권 이슈가 얽히기 쉬워서, 실제 기업·연구자가 얼마나 자유롭게 쓸 수 있을지가 핵심임

국내 AI 생태계에서 늘 부족하다고 말하던 게 ‘한국어·한국 문화권 고품질 멀티모달 데이터’인데, 방송 영상은 그 빈칸을 꽤 크게 메울 수 있는 재료다. 다만 실제 활용 가치는 공개 범위, 라이선스, 라벨 품질이 어디까지 따라오느냐에 달려 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

스노우플레이크, 한국 행사서 기업용 AI 데이터 클라우드와 업무 에이전트 공개

스노우플레이크가 서울에서 열리는 딜로이트 커넥트 코리아 2026에 참여해 기업용 AI 데이터 클라우드 전략을 소개함. 핵심 메시지는 AI 도입의 병목이 모델 자체보다 데이터 품질, 거버넌스, 보안, 비용을 한 플랫폼에서 다루는 준비도에 있다는 쪽임.

ai-ml

LG CNS·두산, AI·로봇·데이터센터까지 묶어 신사업 협력

LG CNS와 두산이 AX, RX, 데이터센터, 클라우드 분야에서 전방위 협력에 나선다. LG CNS의 에이전틱AI 플랫폼과 클라우드·데이터센터 역량, 두산의 에너지·첨단소재·제조 기반을 결합해 제조AX와 로봇, 수소연료전지 데이터센터 활용까지 검토한다는 내용이다.

ai-ml

LG CNS, 오픈AI·앤트로픽·팔란티어 묶고 기업 AI 전환 시장 정조준

LG CNS가 오픈AI, 앤트로픽, 팔란티어와 잇따라 파트너십을 맺으며 국내 기업용 AI 전환 시장을 공략하고 있다. 단순 SI 기업 이미지에서 벗어나 클라우드와 AI 중심 사업자로 체질을 바꾸고 있으며, 클라우드&AI 부문 매출 비중도 58.2%까지 올라왔다.

ai-ml

유클릭스, 기업용 제미나이 체험센터 열고 PoC 이후 공백 노린다

유클릭스가 과천 사옥에 ‘구글 제미나이 엔터프라이즈 익스피리언스 센터’를 열었다. 기업들이 생성형 AI에 관심은 많지만 실제 운영으로 못 넘어가는 문제를 겨냥해, 체험·워크숍·PoC·업무 적용까지 이어지는 모델을 제공하겠다는 내용이다.

ai-ml

구글·AWS, 엔비디아식으로 AI 칩 팔기 시작했다

구글과 AWS가 자체 클라우드 안에서만 쓰던 AI 칩을 외부 데이터센터와 기업 고객에게 팔려는 움직임을 키우고 있다. 구글은 TPU 판매에 금융 보증까지 붙이고, AWS는 트레이니움 칩 외부 판매 가능성을 공개적으로 언급했다. 엔비디아 GPU 독점 구도에 균열이 날지 보는 포인트다.