---
title: "수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개"
published: 2026-05-17T07:05:03.776Z
canonical: https://jeff.news/article/2782
---
# 수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개

수퍼톤이 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 실행되는 온디바이스 음성합성 모델 수퍼토닉 3를 공개했다. 99M 매개변수, 404MB ONNX 자산, 31개 언어 지원, CPU 실시간 합성이 핵심이다.

- 수퍼톤이 새 온디바이스 텍스트 음성 변환(TTS) 모델 수퍼토닉 3를 공개함
  - 한국어 포함 31개 언어를 지원함
  - 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 직접 실행하는 구조임
  - 깃허브에 공개됐고 상업적 사용도 가능하며, 깃허브 트렌딩 차트 1위 인기 저장소에 올랐음

- 이전 버전 대비 가장 큰 변화는 언어 지원 범위임
  - 수퍼토닉 2는 영어, 한국어, 스페인어, 포르투갈어, 프랑스어 등 5개 언어를 지원했음
  - 수퍼토닉 3는 일본어, 독일어, 아랍어, 러시아어, 터키어, 베트남어 등을 포함해 총 31개 언어로 확장됨

- 모델은 ONNX 기반의 경량 TTS 시스템으로 설계됨
  - 모델 규모는 약 9,900만 매개변수(99M) 수준임
  - 공개된 ONNX 자산 전체 크기는 약 404MB임
  - 7억~20억 매개변수급 대형 오픈소스 TTS 모델보다 훨씬 작아서 다운로드, 메모리, 실행 속도에서 유리함

> [!IMPORTANT]
> 핵심은 “31개 언어 TTS”만이 아님. GPU 없이 CPU만으로 로컬 기기에서 실시간에 가까운 음성합성을 노린다는 점이 진짜 포인트임.

- 수퍼토닉 3는 GPU 없이 CPU만으로 빠르게 동작하도록 만들어졌음
  - 전자잉크 리더기 오닉스 부크스 고 6에서도 비행기 모드 상태로 실시간에 가까운 음성 생성을 구현했다고 함
  - 브라우저에서는 onnxruntime-web 기반으로 순수 클라이언트 실행이 가능함
  - 모바일, 라즈베리파이 같은 저전력 장치에서도 동작하는 쪽을 겨냥함

- 음성 품질 쪽에서는 반복, 생략, 발음, 화자 유사성을 개선했다고 강조함
  - TTS에서 자주 터지는 단어 반복이나 문장 누락 오류를 줄였다고 설명함
  - 실제 제품 환경에서 안정성을 높였다는 게 수퍼톤의 주장임

- 감정 표현 태그도 새로 들어감
  - 텍스트 안에 <laugh>, <breath>, <sigh>, <scream> 같은 태그를 넣으면 웃음, 숨소리, 한숨 같은 표현을 음성에 반영할 수 있음
  - 별도 전처리 시스템 없이 텍스트만으로 감정과 호흡을 제어할 수 있어서 음성 비서나 접근성 서비스에 꽤 쓸 만해 보임

- 텍스트 정규화(Text Normalization)도 제품 관점에서는 꽤 큰 포인트임
  - 일반 TTS는 금액, 날짜, 전화번호, 단위 표기를 자연스럽게 읽기 위해 별도 전처리가 필요한 경우가 많음
  - 수퍼토닉 3는 “$5.2M”을 “520만달러”, “30kph”를 “시속 30킬로미터”처럼 읽을 수 있다고 설명함
  - 수퍼톤은 오픈AI TTS-1, 제미나이 2.5 플래시 TTS, 마이크로소프트, 일레븐랩스 등이 일부 금융·단위 표현에서 오류를 보인 테스트에서 수퍼토닉 3가 정확히 처리했다고 주장함

- 내부 구조는 음성 오토인코더와 플로우 매칭 기반 생성을 유지하면서 정렬 정확도를 높이는 쪽으로 개선됨
  - LARoPE(Length-Aware Rotary Position Embedding)를 추가함
  - 자체 정화 플로우 매칭(Self-Purifying Flow Matching) 기법을 넣음
  - 이 조합으로 단 2번의 추론 단계만으로 자연스러운 음성을 생성할 수 있다는 설명임

- 수퍼톤은 보이스 빌더까지 붙여 개발자용 확장성도 밀고 있음
  - 개발자가 자신의 음성을 기반으로 맞춤형 TTS 모델을 만들 수 있게 지원함
  - 로컬 실행, 다국어, 감정 태그, 개인 음성 제작이 한 세트로 묶이면 음성 앱 프로토타입 만드는 비용이 꽤 내려갈 수 있음

---
## 기술 맥락

- 수퍼토닉 3의 선택은 “클라우드에서 좋은 음성을 받아오자”가 아니라 “기기 안에서 충분히 좋은 음성을 만들자”에 가까워요. 그래서 모델 크기, 런타임, CPU 성능이 전부 제품 요구사항으로 연결돼요.

- ONNX를 쓰는 이유는 실행 환경을 넓히기 위해서예요. 같은 모델을 브라우저, 모바일, 임베디드, 라즈베리파이 같은 곳에서 돌리려면 특정 프레임워크에 강하게 묶이면 배포가 귀찮아지거든요.

- 99M 매개변수와 404MB 자산 크기는 품질과 실행성 사이의 타협점이에요. 7억~20억 매개변수 모델은 품질은 좋을 수 있지만, 다운로드 용량과 메모리 부담 때문에 온디바이스 제품에는 바로 넣기 어렵죠.

- 텍스트 정규화가 강조되는 것도 실제 서비스에서는 중요해요. 숫자, 금액, 단위를 이상하게 읽으면 모델이 아무리 자연스러운 목소리를 내도 사용자 입장에서는 바로 깨진 제품처럼 느껴지거든요.

- 단 2번의 추론 단계로 음성을 만든다는 설명은 지연시간을 줄이려는 선택이에요. 음성 비서나 접근성 기능은 버튼 누르고 몇 초씩 기다리는 순간 사용성이 확 떨어지기 때문에, 생성 속도는 품질만큼 중요한 지표예요.

## 핵심 포인트

- 수퍼토닉 3는 한국어 포함 31개 언어를 지원하며 깃허브 트렌딩 1위에 오름
- GPU 없이 CPU 중심으로 동작하고 브라우저에서는 onnxruntime-web 기반 클라이언트 실행이 가능함
- 텍스트 정규화, 감정 태그, 2단계 추론, LARoPE와 자체 정화 플로우 매칭이 주요 개선점임

## 인사이트

TTS가 클라우드 API 중심에서 로컬 실행 가능한 모델로 내려오면 프라이버시, 지연시간, 비용 구조가 확 바뀜. 특히 한국어 포함 31개 언어를 CPU만으로 처리한다는 점은 접근성 서비스나 엣지 디바이스 쪽에서 꽤 실용적인 뉴스임.
