90년대 가족 VHS 500GB를 AI 에이전트로 정리해서 ‘가족용 유튜브’를 만든 이야기

ai-ml 2026-05-18 약 9분

 tags

#agents #video #mux #claude #automation

vote

북마크

Mux의 개발자가 1989-1996년 가족 VHS 영상을 디지털화한 500GB 아카이브를 Claude Code와 Mux Robots로 정리한 사례를 공유했다. 21개 mp4, 31시간짜리 비디오를 182개 추억 단위로 쪼개고, 태그·검색·관련 영상까지 붙인 개인용 웹앱을 만들었다.

1
원본 아카이브는 21개 mp4 파일, 총 31시간, 1989-1996년 촬영분이었다.
2
Claude Code와 Mux Robots API를 조합해 영상 요약, 질문, 핵심 순간, 챕터 생성을 자동화했다.
3
최종 결과는 182개 메모리, 평균 10분 길이, 634개 고유 태그, 텍스트 검색과 관련 영상 기능을 갖춘 웹앱이었다.
4
Mux Robots 처리 비용은 10.61달러였고, Claude Code 사용 비용은 구독에 포함됐다고 설명한다.
5
저자는 에이전트가 강력하지만 성급하게 결론 내리려 하므로 사람이 검증하고 반복 피드백하는 과정이 필수였다고 말한다.

Mux 개발자가 90년대 가족 VHS 아카이브를 AI 에이전트로 정리한 사례를 공개함
- 원본은 아버지가 디지털화해 둔 VHS 영상들
- 1989년부터 1996년까지의 가족 영상이 들어 있었고, 총량은 500GB
- 실제 파일 구성은 21개 mp4, 총 31시간 분량이었음
문제는 영상이 “앨범”이 아니라 “2시간짜리 뒤죽박죽 테이프 묶음”에 가까웠다는 것
- 대부분 파일이 2시간 안팎이고, 어떤 건 여러 이벤트가 섞인 compilation, 어떤 건 단일 이벤트였음
- 생일파티, 가족 여행, 스포츠, 수영장, 해변, 스키, 염색, 지진 같은 장면이 뒤섞여 있었다고 함
- 심지어 녹화가 덮어쓰기되기 전 5초 정도 Full House 오프닝 크레딧이 끼어 있는 식의 VHS스러운 디테일도 있었음
글쓴이는 이걸 Claude Code와 Mux Robots로 처리함
- “500GB 영상을 ChatGPT에 올리고 정리해줘”는 당연히 안 됨
- 대신 Mux에 있는 영상 자산을 대상으로 AI API를 호출하고, Claude Code가 그 결과를 읽고 다음 작업을 이어가는 구조로 만듦
- 거창한 커스텀 에이전트 프레임워크가 아니라, Claude Code나 Codex에 프롬프트를 주고 도구를 쥐여주는 방식이면 충분했다는 게 포인트임
Mux Robots가 제공한 기본 API는 단순하지만, 에이전트와 붙으니 꽤 강해짐
- POST /summarize: 영상 요약과 태그 생성
- POST /ask-questions: 영상에 대해 예/아니오나 객관식 질문
- POST /key-moments: 주요 순간과 타임스탬프 추출
- POST /chapters: 챕터 목록 생성
- 에이전트는 이 API 결과를 로컬 파일로 저장해 두고, 다음 판단에서 다시 참조함

sequenceDiagram
    participant 사용자
    participant Claude Code
    participant Mux Robots
    participant 영상자산
    participant 웹앱
    사용자->>Claude Code: 가족 영상 정리 요청
    Claude Code->>Mux Robots: 요약, 질문, 핵심 순간 분석 요청
    Mux Robots->>영상자산: 21개 mp4 분석
    영상자산-->>Mux Robots: 타임스탬프와 메타데이터 반환
    Mux Robots-->>Claude Code: JSON 결과 전달
    Claude Code->>웹앱: 검색 가능한 추억 UI 생성
    웹앱-->>사용자: 182개 메모리 탐색 제공

재미있는 건 에이전트가 처음부터 완벽하진 않았다는 점임
- 영상들이 순서대로 정리되어 있지 않다는 건 바로 이해했음
- 일부 짧은 영상은 하나의 “memory”로 봐도 된다는 예외도 파악했음
- “이 영상은 단일 기억인가, 여러 기억이 섞인 compilation인가?” 같은 질문을 Mux Robots의 Ask Questions API로 던지는 아이디어도 냈음
- 하지만 각 memory의 경계를 잡는 건 첫 시도에서 약 70% 정도였고, 몇 번 더 pass를 돌려야 했음

❗중요

> 글쓴이가 얻은 핵심 교훈은 에이전트가 능력은 좋은데 너무 빨리 답을 내고 싶어 한다는 것임. “천천히 확인하고 다시 검증해라”는 프롬프트를 추가하자 결과가 좋아졌고, 사람의 리뷰가 결정적이었다고 함.

최종 산출물은 그냥 폴더 정리가 아니라 “가족용 유튜브”였음
- 각 memory에는 원본 asset_id, 재생용 playback_id, 시작·종료 시간, 제목, 설명, 태그, 썸네일 시간, transcript가 들어감
- Mux의 Instant Clipping API 덕분에 새 영상 자산을 182개 만들 필요 없이, 기존 21개 자산의 구간만 UI에서 다르게 보여줄 수 있었음
- 결과적으로 31시간짜리 원본이 182개 memory로 나뉘었고, 평균 길이는 약 10분이었음
웹앱 기능도 실사용 가능한 수준까지 갔음
- 182개 memory 탐색
- 634개 고유 태그, 영상당 평균 6개 태그
- 제목, 설명, 태그, transcript 대상 텍스트 검색
- 공유 태그 기반 관련 영상 추천
- 가족에게 공유하기 위한 개인용 비디오 탐색 서비스가 된 셈임
비용 얘기도 꽤 현실적임
- Mux Robots 처리 비용은 총 10.61달러였다고 함
- Claude Code가 Anthropic으로 데이터를 보내고 프롬프트를 돌리는 비용은 글쓴이의 Claude Code 구독에 포함된 것으로 처리됨
- 즉 순수 API 처리비만 보면 31시간 아카이브 정리에 10달러대가 든 사례임
보안 쪽에서는 public playback ID로 먼저 만들고, 나중에 signed playback ID로 전환함
- public playback ID는 ID만 있으면 누구나 접근할 수 있어서 프로토타입엔 편함
- 가족 영상처럼 공개되면 안 되는 콘텐츠는 서버가 만료 시간과 도메인 제한이 있는 JSON Web Token을 발급하는 signed 방식이 더 맞음
- 글쓴이는 먼저 공개 ID로 빠르게 만들고, 배포 전 Claude에게 signed 방식으로 바꾸라고 했는데 한 번에 잘 됐다고 함

💡팁

> 민감하지 않은 프로토타입은 public playback ID로 빠르게 검증하고, 실제 공유 전 signed playback ID로 전환하는 흐름이 개발 속도와 보안 사이에서 꽤 실용적인 선택으로 보임.

이 글의 결론은 “에이전트가 다 해줌”이 아니라 “귀찮은 작업의 모양이 바뀜”에 가까움
- 영상 파싱, 태깅, 검색 UI 제작 같은 반복 노동은 확 줄었음
- 하지만 어떤 결과가 맞는지 판단하고, 경계를 고치고, 프롬프트를 조정하고, 최종 앱이 실제로 쓸 만한지 확인하는 일은 여전히 사람 몫임
- 글쓴이도 build vs buy 계산이 바뀌긴 했지만, 유지보수까지 생각하면 아무거나 다 vibe coding하고 싶진 않다고 선을 그음

기술 맥락

이 프로젝트의 핵심 선택은 500GB 영상을 한 번에 거대 모델에 넣는 게 아니라, 영상 처리 전용 API와 코딩 에이전트를 나눠 쓴 거예요. Mux Robots가 영상 이해와 타임스탬프 추출을 맡고, Claude Code가 그 결과를 파일로 저장하고 웹앱 구조로 엮었기 때문에 현실적인 비용으로 끝낼 수 있었어요.
memory 경계를 잡는 과정이 중요한 이유는 원본 VHS가 이벤트 단위로 깔끔하게 잘려 있지 않았기 때문이에요. 2시간짜리 파일 안에 여러 장면이 섞여 있으면 단순 요약만으로는 탐색 UI가 안 나오고, 시작 시간과 종료 시간을 가진 작은 단위로 다시 쪼개야 가족들이 실제로 찾아볼 수 있어요.
Instant Clipping API를 쓴 것도 좋은 선택이에요. 182개 memory를 전부 새 영상으로 만들면 저장, 인코딩, 관리 비용이 늘어나는데, 여기서는 21개 원본 자산을 유지하고 구간 정보만 UI에 매핑했어요. 그래서 데이터 모델은 풍부해졌지만 영상 인프라는 복잡해지지 않았어요.
public playback ID에서 signed playback ID로 넘어간 흐름도 실무적으로 익숙한 패턴이에요. 먼저 공개 ID로 개발하면 인증 문제에 막히지 않고 빠르게 UI를 만들 수 있고, 가족 영상처럼 접근 제어가 필요한 단계에서 토큰 기반 재생으로 바꾸면 돼요. 이건 프로토타입 속도와 개인정보 보호를 둘 다 챙기는 방식이에요.

이 글은 ‘AI로 뭔가 멋진 걸 만들었다’류 감상문처럼 보이지만, 실제로는 멀티미디어 아카이브를 에이전트에게 맡길 때 어디까지 자동화되고 어디서 사람이 개입해야 하는지를 꽤 구체적으로 보여준다. 특히 31시간 영상을 182개 기억 단위로 나누는 과정에서 첫 pass가 70% 정도였다는 대목이 현실적이다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

90년대 가족 VHS 500GB를 AI 에이전트로 정리해서 ‘가족용 유튜브’를 만든 이야기

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

90년대 가족 VHS 500GB를 AI 에이전트로 정리해서 ‘가족용 유튜브’를 만든 이야기

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사