본문으로 건너뛰기
피드

클로드에게 영상을 보게 해주는 오픈소스 도구, /watch

ai-ml 약 4분
vote
0
댓글
북마크

오픈소스 도구 /watch는 유튜브 링크나 화면 녹화 파일을 Claude에 넘기면 영상을 내려받고 프레임과 자막을 분석해 답하게 해주는 도구다. 영상 제목이나 설명만 보고 추측하는 게 아니라 실제 화면 흐름을 바탕으로 훅 분석, 버그 재현 확인, 긴 영상 요약 같은 작업에 쓸 수 있다는 점이 포인트다.

  • 1

    /watch는 Claude가 영상 링크나 녹화 파일을 직접 분석할 수 있게 돕는 오픈소스 도구다.

  • 2

    첫 실행 때 ffmpeg와 yt-dlp를 자동으로 준비하고, 공개 영상 자막 활용은 비용 부담이 적다.

  • 3

    영상 훅 분석, 버그 화면 녹화 확인, 긴 영상 핵심 파악처럼 개발자와 크리에이터 워크플로에 바로 꽂을 수 있다.

  • Claude에게 영상을 ‘보게’ 해주는 오픈소스 도구 /watch를 써본 후기임

    • 유튜브 링크나 화면 녹화 파일을 던지면, 도구가 영상을 내려받고 프레임을 뽑고 자막까지 붙여 Claude가 분석할 수 있게 만들어줌
    • 핵심은 제목이나 설명만 보고 대충 추측하는 게 아니라, 실제 화면에 나온 내용을 기반으로 답하게 만든다는 점임
  • 쓰임새가 꽤 현실적임. 특히 영상 콘텐츠나 버그 리포트를 자주 보는 사람한테 바로 와닿는 타입

    • 잘 나가는 영상의 첫 3초 훅이 어떻게 짜였는지 분석할 수 있음
    • 누가 보낸 버그 화면 녹화에서 어느 지점에 UI가 깨지는지 찾는 데 쓸 수 있음
    • 20분짜리 영상을 전부 보지 않고 핵심만 먼저 파악하는 용도로도 괜찮음

💡

> 화면 녹화로 버그를 주고받는 팀이라면 꽤 쓸 만함. “몇 초쯤에서 깨져요?”를 사람이 직접 돌려보는 시간을 줄일 수 있음.

  • 설치 부담도 크게 잡지 않은 쪽임

    • ffmpegyt-dlp는 첫 실행 때 알아서 설치되는 흐름이라고 소개됨
    • 공개 영상의 자막을 활용하는 경우에는 별도 비용 부담 없이 분석에 넣을 수 있음
    • 원본은 MIT 라이선스 오픈소스로 공개돼 있음
  • 이 글에서 말하는 AX는 거창한 AI 플랫폼이 아니라, 모델이 못 하던 일 하나를 메워주는 작은 도구에 가까움

    • Claude가 원래는 영상 파일을 사람처럼 자연스럽게 훑어보는 워크플로가 약한데, /watch가 그 빈칸을 메움
    • 결국 중요한 건 새 모델 발표만 쫓는 게 아니라, 남이 잘 만든 작은 도구를 빨리 알아보고 내 작업 흐름에 꽂는 감각임

기술 맥락

  • /watch의 선택은 “Claude를 바꾸는 것”이 아니라 “Claude 앞단의 입력을 바꾸는 것”에 가까워요. 영상 자체를 모델에게 막연히 넘기는 대신, 프레임과 자막처럼 모델이 해석하기 쉬운 재료로 변환하는 방식이거든요.

  • ffmpegyt-dlp를 붙인 이유도 명확해요. 하나는 영상을 처리하고, 하나는 온라인 영상을 가져오는 역할이라서 사용자가 다운로드, 변환, 추출을 따로 할 필요가 줄어들어요.

  • 개발자 워크플로에서는 이게 특히 버그 재현 쪽에서 의미가 있어요. 화면 녹화를 사람이 처음부터 끝까지 돌려보는 대신, Claude에게 “어디서 이상해졌는지”를 먼저 물어볼 수 있으니까요.

  • 다만 이 도구의 가치는 영상 이해 모델을 대체하는 데 있지 않아요. 이미 있는 LLM에 부족한 입력 감각을 얇게 덧붙여서, 당장 쓸 수 있는 자동화 지점을 만드는 쪽에 더 가까워요.

이런 도구의 재미는 거대한 AI 플랫폼이 아니라 기존 모델의 빈 감각을 작게 메워준다는 데 있음. 개발자 입장에서는 ‘모델이 못 하던 입력’을 워크플로에 붙이는 방식이 꽤 현실적인 AX 개선 포인트다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

구글, 메타에 팔던 제미나이 용량도 배분제로 돌렸다

구글이 메타에 제공하던 제미나이 모델 용량을 3월부터 제한했다. 클라우드 AI 수요가 폭증하면서 돈을 더 낸다고 원하는 만큼 연산 자원을 확보할 수 있다는 전제가 흔들리고 있다.

ai-ml

민감한 회의 녹음, 클라우드 안 보내고 PC에서 바로 전사한다

노타가 민감한 회의를 클라우드로 보내지 않고 사용자 PC 안에서 녹음과 음성 전사를 처리하는 데스크톱 기능을 공개했다. 회의 봇을 초대하지 않아도 줌, 구글 미트, 팀즈, 슬랙, 웹엑스 회의를 기록할 수 있고, 법률·금융·고객 상담처럼 데이터 통제가 중요한 환경을 겨냥했다.

ai-ml

AI 에이전트 비용, 이제 토큰 단가보다 ‘어디서 돌리냐’가 문제

AI 모델의 토큰 단가는 내려갔지만, 기업이 실제로 내는 AI 비용은 오히려 커지고 있다는 지적이 나왔다. 특히 자율형 AI 에이전트는 일반 챗봇보다 토큰을 4~15배 더 쓰고, 장기적으로 인프라 부하를 최대 1000배까지 키울 수 있어 로컬 컴퓨팅과 하이브리드 인프라 전략이 중요해지고 있다.

ai-ml

하루 학습으로 공장 투입? 피지컬 AI 스타트업 카본식스에 622억원 몰림

제조업 특화 피지컬 AI 기업 카본식스가 4030만달러, 약 622억원 규모의 시리즈A 투자를 유치했다. 핵심 제품 ‘시그마키트’는 로봇 AI, 전용 네트워크, 그리퍼, 센서, 티칭 도구를 묶어 하루 정도의 작업 학습만으로 제조 공정에 투입할 수 있게 하는 자동화 솔루션이다.

ai-ml

수학 난제 푸는 AI와 전기 먹는 AI, 이제는 ‘어떻게 굴릴지’가 진짜 문제

AI가 장기 추론과 이질적 지식 결합으로 연구 파트너 역할을 할 수 있다는 관점과, 동시에 데이터센터 전력·물 사용이라는 환경 비용이 커지고 있다는 문제의식을 함께 다룬 글이다. 핵심은 AI를 무조건 더 많이 쓰자는 얘기가 아니라, 자율 루프와 정렬, 에너지 절감 설계를 같이 고민해야 한다는 쪽에 가깝다.