본문으로 건너뛰기
피드

방송영상 2만3천 시간, 국내 AI 학습데이터로 풀린다

ai-ml 약 3분

방송미디어통신위원회가 뉴스·다큐·드라마 등 방송 영상 2만3천113시간과 약 460만 개 데이터셋을 AI 학습용으로 구축했다. 총 200억 원이 투입됐고, 방송 콘텐츠 제작뿐 아니라 제조·의료·재난·교통 같은 산업용 AI 개발에도 쓰겠다는 그림이다.

  • 1

    방송 원본 200만 시간 이상 중 약 4만 시간을 선별·가공해 최종 2만3천113시간 데이터 구축

  • 2

    데이터셋 규모는 약 460만 개로, 방송사 보유 영상 자료를 AI 학습용 자산으로 전환한 사업

  • 3

    KBS, MBC, KT ENA, 네이버클라우드, LG AI연구원 등 방송·AI 업계가 참여

  • 방미통위가 방송영상 AI 학습용 데이터를 2만3천113시간 규모로 구축함

    • 뉴스, 다큐멘터리, 드라마 등 방송사가 보유한 영상 자료를 AI가 학습할 수 있는 데이터로 바꾼 사업임
    • 데이터셋 수로 보면 약 460만 개라서, 단순히 영상 파일을 모은 수준은 아니고 가공·분류 작업이 꽤 들어간 프로젝트로 보임
  • 원천 자료는 훨씬 컸고, 최종 데이터는 선별 과정을 거쳐 나옴

    • 방송 원본 데이터는 200만 시간 이상이었고, 이 중 약 4만 시간을 골라 가공함
    • 최종적으로 AI 학습에 쓸 수 있는 형태로 정리된 분량이 2만3천113시간임
    • 총사업비는 200억 원이 투입됨
  • 정부가 보는 활용처는 방송 제작 자동화에만 갇혀 있지 않음

    • 방송 콘텐츠 제작 효율을 높이는 AI 서비스가 1차 타깃임
    • 여기에 제조, 의료, 재난, 교통 같은 산업 분야 AI 개발에도 활용될 수 있다고 봄
    • 영상 기반 상황 인식, 장면 분석, 음성·자막 결합 처리 같은 쪽에서 쓸 여지가 있음
  • 참여 면면을 보면 방송사와 AI 인프라 쪽이 같이 붙어 있음

    • KBS, MBC, MBC충북, KT ENA 같은 방송사가 주관 방송사로 참여함
    • 네이버클라우드, LG AI연구원 관계자도 성과공유회에 참석함
    • 한국어권 영상 데이터가 필요한 모델·서비스 입장에서는 꽤 관심 갈 만한 움직임임
  • 진짜 관건은 ‘만들었다’ 다음 단계임

    • 학습데이터는 양도 중요하지만 라벨 품질, 접근 조건, 라이선스, 업데이트 주기가 더 중요해지는 경우가 많음
    • 특히 방송 영상은 저작권과 초상권 이슈가 얽히기 쉬워서, 실제 기업·연구자가 얼마나 자유롭게 쓸 수 있을지가 핵심임

국내 AI 생태계에서 늘 부족하다고 말하던 게 ‘한국어·한국 문화권 고품질 멀티모달 데이터’인데, 방송 영상은 그 빈칸을 꽤 크게 메울 수 있는 재료다. 다만 실제 활용 가치는 공개 범위, 라이선스, 라벨 품질이 어디까지 따라오느냐에 달려 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

퍼스트바이오, 일라이 릴리 AI 신약개발 플랫폼으로 후보물질 발굴 고도화

퍼스트바이오테라퓨틱스가 일라이 릴리의 AI 기반 신약개발 협업 플랫폼 릴리 튠랩에 참여한다. 회사는 퇴행성 뇌질환과 항암 저분자화합물 파이프라인에 릴리의 AI 모델링을 접목해 후보물질 탐색과 리드 최적화 정확도를 높이려 한다. 자체 축적한 고정밀 ADMET 데이터셋을 보안 환경에서 활용한다는 점도 핵심이다.

ai-ml

아스트랄큐, AI가 소재를 예측하고 로봇이 검증하는 클라우드랩으로 시드 투자 유치

AI 기반 소재 개발 기업 아스트랄큐가 한국투자액셀러레이터, 블루포인트파트너스, 슈미트, 스마일게이트인베스트먼트로부터 시드 투자를 유치했다. 회사는 머신러닝 해밀토니안, 머신러닝 포스 필드, 무기물 자동 합성 랩을 결합해 예측부터 실제 합성 검증까지 이어지는 클라우드랩을 만들고 있다. 소재 개발 속도를 10~20배 높이고 비용을 낮추겠다는 목표가 핵심이다.

ai-ml

텐센트 클라우드, 확산 트랜스포머 기반 영상 화질 향상 기술로 방송 기술상 수상

텐센트 클라우드의 영상 화질 향상 기술과 스마트 지우기 기능이 2026년 NAB 쇼 올해의 제품상에 선정됐다. 핵심은 확산 트랜스포머 기반 실시간 4K 초해상도, 최대 120프레임 보간, 영상 내 로고·자막·얼굴·번호판 제거 자동화다. 스트리밍, 숏폼, 이커머스, 게임 영상 현지화에 바로 걸리는 기술이라 미디어 개발자에게는 꽤 실무적인 신호다.

ai-ml

구글 클라우드와 솔라나, AI 에이전트가 API 비용을 직접 내는 결제 프로토콜 공개

구글 클라우드와 솔라나 재단이 AI 에이전트용 결제 프로토콜 페이닷에스에이치를 공개했다. 에이전트가 솔라나 지갑을 신원처럼 쓰고, 스테이블코인으로 API 호출 비용을 건별로 결제하는 구조다. 월정액 구독 대신 호출당 1센트 미만 결제라는 점에서 API 과금 모델 자체를 흔드는 시도다.

ai-ml

미즈호, 알파벳 목표가 올림…구글 클라우드와 TPU 수익성을 더 높게 봤다

미즈호 파이낸셜이 알파벳의 12개월 목표주가를 420달러에서 460달러로 올렸다. 핵심 근거는 구글 클라우드 매출과 영업이익이 월가 예상보다 더 크게 뛸 수 있고, 자체 AI 칩인 TPU 기반 하드웨어 판매도 높은 마진을 낼 수 있다는 분석이다.