본문으로 건너뛰기
피드

90년대 가족 VHS 500GB를 AI 에이전트로 정리해서 ‘가족용 유튜브’를 만든 이야기

ai-ml 약 9분
vote
0
댓글
북마크

Mux의 개발자가 1989-1996년 가족 VHS 영상을 디지털화한 500GB 아카이브를 Claude Code와 Mux Robots로 정리한 사례를 공유했다. 21개 mp4, 31시간짜리 비디오를 182개 추억 단위로 쪼개고, 태그·검색·관련 영상까지 붙인 개인용 웹앱을 만들었다.

  • 1

    원본 아카이브는 21개 mp4 파일, 총 31시간, 1989-1996년 촬영분이었다.

  • 2

    Claude Code와 Mux Robots API를 조합해 영상 요약, 질문, 핵심 순간, 챕터 생성을 자동화했다.

  • 3

    최종 결과는 182개 메모리, 평균 10분 길이, 634개 고유 태그, 텍스트 검색과 관련 영상 기능을 갖춘 웹앱이었다.

  • 4

    Mux Robots 처리 비용은 10.61달러였고, Claude Code 사용 비용은 구독에 포함됐다고 설명한다.

  • 5

    저자는 에이전트가 강력하지만 성급하게 결론 내리려 하므로 사람이 검증하고 반복 피드백하는 과정이 필수였다고 말한다.

  • Mux 개발자가 90년대 가족 VHS 아카이브를 AI 에이전트로 정리한 사례를 공개함

    • 원본은 아버지가 디지털화해 둔 VHS 영상들
    • 1989년부터 1996년까지의 가족 영상이 들어 있었고, 총량은 500GB
    • 실제 파일 구성은 21개 mp4, 총 31시간 분량이었음
  • 문제는 영상이 “앨범”이 아니라 “2시간짜리 뒤죽박죽 테이프 묶음”에 가까웠다는 것

    • 대부분 파일이 2시간 안팎이고, 어떤 건 여러 이벤트가 섞인 compilation, 어떤 건 단일 이벤트였음
    • 생일파티, 가족 여행, 스포츠, 수영장, 해변, 스키, 염색, 지진 같은 장면이 뒤섞여 있었다고 함
    • 심지어 녹화가 덮어쓰기되기 전 5초 정도 Full House 오프닝 크레딧이 끼어 있는 식의 VHS스러운 디테일도 있었음
  • 글쓴이는 이걸 Claude Code와 Mux Robots로 처리함

    • “500GB 영상을 ChatGPT에 올리고 정리해줘”는 당연히 안 됨
    • 대신 Mux에 있는 영상 자산을 대상으로 AI API를 호출하고, Claude Code가 그 결과를 읽고 다음 작업을 이어가는 구조로 만듦
    • 거창한 커스텀 에이전트 프레임워크가 아니라, Claude Code나 Codex에 프롬프트를 주고 도구를 쥐여주는 방식이면 충분했다는 게 포인트임
  • Mux Robots가 제공한 기본 API는 단순하지만, 에이전트와 붙으니 꽤 강해짐

    • POST /summarize: 영상 요약과 태그 생성
    • POST /ask-questions: 영상에 대해 예/아니오나 객관식 질문
    • POST /key-moments: 주요 순간과 타임스탬프 추출
    • POST /chapters: 챕터 목록 생성
    • 에이전트는 이 API 결과를 로컬 파일로 저장해 두고, 다음 판단에서 다시 참조함
sequenceDiagram
    participant 사용자
    participant Claude Code
    participant Mux Robots
    participant 영상자산
    participant 웹앱
    사용자->>Claude Code: 가족 영상 정리 요청
    Claude Code->>Mux Robots: 요약, 질문, 핵심 순간 분석 요청
    Mux Robots->>영상자산: 21개 mp4 분석
    영상자산-->>Mux Robots: 타임스탬프와 메타데이터 반환
    Mux Robots-->>Claude Code: JSON 결과 전달
    Claude Code->>웹앱: 검색 가능한 추억 UI 생성
    웹앱-->>사용자: 182개 메모리 탐색 제공
  • 재미있는 건 에이전트가 처음부터 완벽하진 않았다는 점임
    • 영상들이 순서대로 정리되어 있지 않다는 건 바로 이해했음
    • 일부 짧은 영상은 하나의 “memory”로 봐도 된다는 예외도 파악했음
    • “이 영상은 단일 기억인가, 여러 기억이 섞인 compilation인가?” 같은 질문을 Mux Robots의 Ask Questions API로 던지는 아이디어도 냈음
    • 하지만 각 memory의 경계를 잡는 건 첫 시도에서 약 70% 정도였고, 몇 번 더 pass를 돌려야 했음

중요

> 글쓴이가 얻은 핵심 교훈은 에이전트가 능력은 좋은데 너무 빨리 답을 내고 싶어 한다는 것임. “천천히 확인하고 다시 검증해라”는 프롬프트를 추가하자 결과가 좋아졌고, 사람의 리뷰가 결정적이었다고 함.

  • 최종 산출물은 그냥 폴더 정리가 아니라 “가족용 유튜브”였음

    • 각 memory에는 원본 asset_id, 재생용 playback_id, 시작·종료 시간, 제목, 설명, 태그, 썸네일 시간, transcript가 들어감
    • Mux의 Instant Clipping API 덕분에 새 영상 자산을 182개 만들 필요 없이, 기존 21개 자산의 구간만 UI에서 다르게 보여줄 수 있었음
    • 결과적으로 31시간짜리 원본이 182개 memory로 나뉘었고, 평균 길이는 약 10분이었음
  • 웹앱 기능도 실사용 가능한 수준까지 갔음

    • 182개 memory 탐색
    • 634개 고유 태그, 영상당 평균 6개 태그
    • 제목, 설명, 태그, transcript 대상 텍스트 검색
    • 공유 태그 기반 관련 영상 추천
    • 가족에게 공유하기 위한 개인용 비디오 탐색 서비스가 된 셈임
  • 비용 얘기도 꽤 현실적임

    • Mux Robots 처리 비용은 총 10.61달러였다고 함
    • Claude Code가 Anthropic으로 데이터를 보내고 프롬프트를 돌리는 비용은 글쓴이의 Claude Code 구독에 포함된 것으로 처리됨
    • 즉 순수 API 처리비만 보면 31시간 아카이브 정리에 10달러대가 든 사례임
  • 보안 쪽에서는 public playback ID로 먼저 만들고, 나중에 signed playback ID로 전환함

    • public playback ID는 ID만 있으면 누구나 접근할 수 있어서 프로토타입엔 편함
    • 가족 영상처럼 공개되면 안 되는 콘텐츠는 서버가 만료 시간과 도메인 제한이 있는 JSON Web Token을 발급하는 signed 방식이 더 맞음
    • 글쓴이는 먼저 공개 ID로 빠르게 만들고, 배포 전 Claude에게 signed 방식으로 바꾸라고 했는데 한 번에 잘 됐다고 함

💡

> 민감하지 않은 프로토타입은 public playback ID로 빠르게 검증하고, 실제 공유 전 signed playback ID로 전환하는 흐름이 개발 속도와 보안 사이에서 꽤 실용적인 선택으로 보임.

  • 이 글의 결론은 “에이전트가 다 해줌”이 아니라 “귀찮은 작업의 모양이 바뀜”에 가까움
    • 영상 파싱, 태깅, 검색 UI 제작 같은 반복 노동은 확 줄었음
    • 하지만 어떤 결과가 맞는지 판단하고, 경계를 고치고, 프롬프트를 조정하고, 최종 앱이 실제로 쓸 만한지 확인하는 일은 여전히 사람 몫임
    • 글쓴이도 build vs buy 계산이 바뀌긴 했지만, 유지보수까지 생각하면 아무거나 다 vibe coding하고 싶진 않다고 선을 그음

기술 맥락

  • 이 프로젝트의 핵심 선택은 500GB 영상을 한 번에 거대 모델에 넣는 게 아니라, 영상 처리 전용 API와 코딩 에이전트를 나눠 쓴 거예요. Mux Robots가 영상 이해와 타임스탬프 추출을 맡고, Claude Code가 그 결과를 파일로 저장하고 웹앱 구조로 엮었기 때문에 현실적인 비용으로 끝낼 수 있었어요.

  • memory 경계를 잡는 과정이 중요한 이유는 원본 VHS가 이벤트 단위로 깔끔하게 잘려 있지 않았기 때문이에요. 2시간짜리 파일 안에 여러 장면이 섞여 있으면 단순 요약만으로는 탐색 UI가 안 나오고, 시작 시간과 종료 시간을 가진 작은 단위로 다시 쪼개야 가족들이 실제로 찾아볼 수 있어요.

  • Instant Clipping API를 쓴 것도 좋은 선택이에요. 182개 memory를 전부 새 영상으로 만들면 저장, 인코딩, 관리 비용이 늘어나는데, 여기서는 21개 원본 자산을 유지하고 구간 정보만 UI에 매핑했어요. 그래서 데이터 모델은 풍부해졌지만 영상 인프라는 복잡해지지 않았어요.

  • public playback ID에서 signed playback ID로 넘어간 흐름도 실무적으로 익숙한 패턴이에요. 먼저 공개 ID로 개발하면 인증 문제에 막히지 않고 빠르게 UI를 만들 수 있고, 가족 영상처럼 접근 제어가 필요한 단계에서 토큰 기반 재생으로 바꾸면 돼요. 이건 프로토타입 속도와 개인정보 보호를 둘 다 챙기는 방식이에요.

이 글은 ‘AI로 뭔가 멋진 걸 만들었다’류 감상문처럼 보이지만, 실제로는 멀티미디어 아카이브를 에이전트에게 맡길 때 어디까지 자동화되고 어디서 사람이 개입해야 하는지를 꽤 구체적으로 보여준다. 특히 31시간 영상을 182개 기억 단위로 나누는 과정에서 첫 pass가 70% 정도였다는 대목이 현실적이다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.