---
title: "Jarvey — macOS용 로컬 음성 데스크톱 에이전트, GPT-5.4로 작업 계획·실행"
published: 2026-03-07T23:04:06.000Z
canonical: https://jeff.news/article/264
---
# Jarvey — macOS용 로컬 음성 데스크톱 에이전트, GPT-5.4로 작업 계획·실행

macOS에서 음성으로 제어하는 로컬 데스크톱 에이전트. Swift 오버레이 + Node 사이드카 구조로, OpenAI Realtime으로 음성 처리하고 GPT-5.4로 멀티스텝 작업을 수행함.

- Jarvey는 macOS용 로컬 음성 기반 데스크톱 에이전트임. Option+Space 핫키 누르고 말하면 앱 열기, 폼 채우기, UI 탐색, 파일 관리 등을 알아서 해줌. 이름에서 눈치챘겠지만 아이언맨의 JARVIS를 노린 거임

- 구조가 꽤 흥미로움:
  - Swift 오버레이 앱 + Node.js 사이드카 조합
  - 음성 입력은 OpenAI Realtime API로 저지연 오디오 스트리밍 처리
  - 작업 계획 및 실행은 GPT-5.4가 GUI/워크벤치 전문가를 코디네이터로 관리
  - 로컬 SQLite 기반 메모리로 세션 간 컨텍스트 유지

- 컴퓨터 사용 에이전트(CUA)라서 클릭, 타이핑, 다이얼로그 승인, 파일 삭제까지 다 할 수 있음. README에서도 대놓고 "CUA는 본질적으로 위험하다, 본인이 제어하는 시스템에서만 쓰라"고 경고하고 있음

- macOS 14(Sonoma) 이상 필요하고, 마이크/화면 녹화/접근성 권한 부여해야 함. OpenAI API 키도 필수. 릴리즈 빌드는 ad-hoc 서명이라 공증(notarize) 안 돼 있어서, 첫 실행 시 시스템 설정에서 "그래도 열기"를 해야 함

- 로컬에서 돌아가긴 하지만 음성 데이터와 스크린샷은 OpenAI로 전송됨. 텔레메트리나 서드파티 분석은 포함되어 있지 않다고 함. 프라이버시 민감한 사람은 이 부분 체크해볼 필요 있음

## 핵심 포인트

- Option+Space 핫키로 음성 명령, 앱 열기/폼 채우기/UI 탐색/파일 관리
- Swift 오버레이 + Node.js 사이드카 + OpenAI Realtime + GPT-5.4 조합
- CUA(컴퓨터 사용 에이전트)라 클릭/타이핑/파일 삭제까지 가능, 보안 주의 필요

## 인사이트

음성 데이터와 스크린샷이 OpenAI로 전송되는 구조라 프라이버시 트레이드오프가 있음. 로컬이라고 하지만 완전한 로컬은 아닌 셈
