---
title: "구글, 맥북에서 200밀리초 안에 반응하는 인공지능 악기 공개"
published: 2026-06-06T10:05:02.576Z
canonical: https://jeff.news/article/3789
---
# 구글, 맥북에서 200밀리초 안에 반응하는 인공지능 악기 공개

구글이 텍스트로 곡을 뽑는 생성 음악 모델을 넘어, 연주자의 입력에 실시간으로 반응하는 인공지능 음악 모델 ‘마젠타 리얼타임 2’를 공개했다. 24억 매개변수 모델이면서도 애플 맥북에서 200밀리초 이하 지연 시간으로 동작하고, 오픈 웨이트와 추론 엔진, 앱·플러그인까지 함께 풀었다.

- 구글이 공개한 ‘마젠타 리얼타임 2’는 그냥 음악을 만들어주는 모델이 아니라, 연주자가 직접 다룰 수 있는 인공지능 악기에 가까움
  - 기존 생성 음악 모델은 텍스트 프롬프트를 넣고 완성된 곡을 받는 쪽에 가까웠음
  - 이번 모델은 미디, 오디오, 텍스트 입력을 동시에 받아 연주 흐름에 실시간으로 반응함

- 핵심 숫자는 꽤 세다. 24억 매개변수 모델인데 애플 맥북에서 200밀리초 이하 지연 시간으로 돈다는 점이 포인트임
  - 이전 세대 마젠타 리얼타임보다 지연 시간이 15배 낮아졌다고 구글은 설명함
  - 고성능 서버나 전용 가속기 없이 노트북에서 직접 실시간 음악 생성이 가능하다는 얘기라, 데모 장난감보다 실제 창작 도구에 가까워짐

> [!IMPORTANT]
> 실시간 악기에서 200밀리초 이하는 체감 품질을 가르는 숫자임. 생성 결과가 좋아도 입력과 반응 사이가 밀리면 연주 도구로 쓰기 어렵기 때문임.

- 공개 방식도 개발자 친화적으로 잡았다. 모델만 던진 게 아니라 주변 도구까지 한 번에 풀었음
  - 오픈 웨이트 형태로 공개했고, 오픈소스 추론 엔진도 제공함
  - 독립 실행형 앱, 디지털 오디오 워크스테이션 플러그인, 확장 프로그램 예제까지 같이 배포함
  - 파이썬 라이브러리 `magenta-rt`는 잭스와 엠엘엑스 기반 추론을 지원함

- 음악가 입장에서는 ‘새로운 소리 생성기’보다 ‘반응하는 파트너’에 가까운 사용성을 노린 것으로 보임
  - 특정 악기 소리를 복제하거나, 서로 다른 음악 스타일을 섞거나, 실시간 반주를 만드는 식의 응용을 상정함
  - 앞으로는 사용자 데이터로 미세조정해서 개인 연주 스타일과 음색을 반영한 맞춤형 인공지능 악기도 만들 수 있게 할 예정임

- 기술적으로는 오디오를 토큰으로 바꿔 생성하는 코덱 언어 모델 구조를 썼음
  - 오디오를 스펙트로스트림 코덱으로 변환한 뒤, 그 토큰을 생성하는 방식임
  - 프레임 단위 자기회귀와 프레임 정렬 조건부 생성을 써서 입력에 맞춘 빠른 반응을 구현함
  - 장시간 스트리밍 생성을 위해 인과적 슬라이딩 윈도우 어텐션도 적용해 메모리 사용량을 제한함

- 구글은 실행 환경까지 새로 팠다. 씨플러스플러스 기반 추론 엔진을 만들고 애플 엠엘엑스로 애플 실리콘 그래픽처리장치에서 모델을 돌리게 했음
  - 이 엔진은 모델 상태 관리, 오디오 버퍼링, 리샘플링, 미디 입력 처리까지 담당함
  - 음악 생성 모델이 실제 제작 환경에 들어가려면 모델 품질만큼 지연 시간, 버퍼링, 플러그인 통합이 중요하다는 걸 보여주는 대목임

- 이 흐름이 재밌는 이유는 생성 인공지능이 ‘결과물 자동 생성’에서 ‘창작 과정 안으로 들어오는 도구’로 이동하고 있어서임
  - 2017년 엔신스부터 디디에스피, 피아노 지니, 1세대 마젠타 리얼타임으로 이어진 구글 음악 인공지능 연구의 연장선임
  - 음악가를 대체한다는 메시지보다, 연주자 입력을 받아 함께 반응하는 도구라는 포지셔닝을 계속 밀고 있음

---

## 기술 맥락

- 이번 선택의 핵심은 텍스트 생성 모델처럼 ‘완성본을 한 번에 뽑는 구조’가 아니라, 연주 입력에 맞춰 계속 반응하는 스트리밍 구조를 택했다는 점이에요. 음악가가 실제 악기처럼 쓰려면 좋은 샘플보다 입력 지연이 더 치명적이거든요.

- 그래서 구글은 오디오를 그대로 처리하기보다 스펙트로스트림 코덱으로 토큰화하고, 프레임 단위로 다음 출력을 생성하는 방식을 썼어요. 이렇게 하면 오디오 품질과 계산량 사이에서 타협점을 만들 수 있고, 실시간 반응에도 유리해요.

- 인과적 슬라이딩 윈도우 어텐션도 같은 맥락이에요. 긴 음악을 만들 때 모든 과거 프레임을 계속 보면 메모리가 터지기 쉬우니, 최근 문맥을 중심으로 보면서 스트리밍을 유지하는 쪽을 고른 거예요.

- 또 하나 중요한 건 애플 실리콘 로컬 실행이에요. 서버 왕복 없이 맥북에서 200밀리초 이하로 도는 구조라면, 디지털 오디오 워크스테이션 플러그인이나 라이브 퍼포먼스 도구로 붙일 여지가 훨씬 커져요.

## 핵심 포인트

- 마젠타 리얼타임 2는 텍스트뿐 아니라 미디, 오디오 입력에 실시간 반응하는 연주형 인공지능 모델임
- 이전 세대보다 지연 시간이 15배 낮고, 일반 애플 맥북에서도 200밀리초 이하로 구동됨
- 스펙트로스트림 코덱, 프레임 단위 자기회귀, 인과적 슬라이딩 윈도우 어텐션으로 스트리밍 생성을 구현함
- 구글은 오픈 웨이트, 파이썬 라이브러리, 씨플러스플러스 추론 엔진, 앱·플러그인 예제를 함께 공개함

## 인사이트

음악 생성 인공지능이 ‘프롬프트 넣고 결과물 받기’에서 ‘연주 중인 악기’로 넘어가는 장면이라 꽤 중요함. 특히 서버 없이 노트북 로컬에서 실시간 반응한다는 점은 창작 도구와 온디바이스 생성 모델 쪽 개발자에게 바로 참고할 만한 포인트임.
