수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개

ai-ml 2026-05-17 약 6분

 tags

#tts #onnx #edge-ai #speech #cpu

vote

북마크

수퍼톤이 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 실행되는 온디바이스 음성합성 모델 수퍼토닉 3를 공개했다. 99M 매개변수, 404MB ONNX 자산, 31개 언어 지원, CPU 실시간 합성이 핵심이다.

1
수퍼토닉 3는 한국어 포함 31개 언어를 지원하며 깃허브 트렌딩 1위에 오름
2
GPU 없이 CPU 중심으로 동작하고 브라우저에서는 onnxruntime-web 기반 클라이언트 실행이 가능함
3
텍스트 정규화, 감정 태그, 2단계 추론, LARoPE와 자체 정화 플로우 매칭이 주요 개선점임

수퍼톤이 새 온디바이스 텍스트 음성 변환(TTS) 모델 수퍼토닉 3를 공개함
- 한국어 포함 31개 언어를 지원함
- 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 직접 실행하는 구조임
- 깃허브에 공개됐고 상업적 사용도 가능하며, 깃허브 트렌딩 차트 1위 인기 저장소에 올랐음
이전 버전 대비 가장 큰 변화는 언어 지원 범위임
- 수퍼토닉 2는 영어, 한국어, 스페인어, 포르투갈어, 프랑스어 등 5개 언어를 지원했음
- 수퍼토닉 3는 일본어, 독일어, 아랍어, 러시아어, 터키어, 베트남어 등을 포함해 총 31개 언어로 확장됨
모델은 ONNX 기반의 경량 TTS 시스템으로 설계됨
- 모델 규모는 약 9,900만 매개변수(99M) 수준임
- 공개된 ONNX 자산 전체 크기는 약 404MB임
- 7억~20억 매개변수급 대형 오픈소스 TTS 모델보다 훨씬 작아서 다운로드, 메모리, 실행 속도에서 유리함

❗중요

> 핵심은 “31개 언어 TTS”만이 아님. GPU 없이 CPU만으로 로컬 기기에서 실시간에 가까운 음성합성을 노린다는 점이 진짜 포인트임.

수퍼토닉 3는 GPU 없이 CPU만으로 빠르게 동작하도록 만들어졌음
- 전자잉크 리더기 오닉스 부크스 고 6에서도 비행기 모드 상태로 실시간에 가까운 음성 생성을 구현했다고 함
- 브라우저에서는 onnxruntime-web 기반으로 순수 클라이언트 실행이 가능함
- 모바일, 라즈베리파이 같은 저전력 장치에서도 동작하는 쪽을 겨냥함
음성 품질 쪽에서는 반복, 생략, 발음, 화자 유사성을 개선했다고 강조함
- TTS에서 자주 터지는 단어 반복이나 문장 누락 오류를 줄였다고 설명함
- 실제 제품 환경에서 안정성을 높였다는 게 수퍼톤의 주장임
감정 표현 태그도 새로 들어감
- 텍스트 안에 , , , 같은 태그를 넣으면 웃음, 숨소리, 한숨 같은 표현을 음성에 반영할 수 있음
- 별도 전처리 시스템 없이 텍스트만으로 감정과 호흡을 제어할 수 있어서 음성 비서나 접근성 서비스에 꽤 쓸 만해 보임
텍스트 정규화(Text Normalization)도 제품 관점에서는 꽤 큰 포인트임
- 일반 TTS는 금액, 날짜, 전화번호, 단위 표기를 자연스럽게 읽기 위해 별도 전처리가 필요한 경우가 많음
- 수퍼토닉 3는 “$5.2M”을 “520만달러”, “30kph”를 “시속 30킬로미터”처럼 읽을 수 있다고 설명함
- 수퍼톤은 오픈AI TTS-1, 제미나이 2.5 플래시 TTS, 마이크로소프트, 일레븐랩스 등이 일부 금융·단위 표현에서 오류를 보인 테스트에서 수퍼토닉 3가 정확히 처리했다고 주장함
내부 구조는 음성 오토인코더와 플로우 매칭 기반 생성을 유지하면서 정렬 정확도를 높이는 쪽으로 개선됨
- LARoPE(Length-Aware Rotary Position Embedding)를 추가함
- 자체 정화 플로우 매칭(Self-Purifying Flow Matching) 기법을 넣음
- 이 조합으로 단 2번의 추론 단계만으로 자연스러운 음성을 생성할 수 있다는 설명임
수퍼톤은 보이스 빌더까지 붙여 개발자용 확장성도 밀고 있음
- 개발자가 자신의 음성을 기반으로 맞춤형 TTS 모델을 만들 수 있게 지원함
- 로컬 실행, 다국어, 감정 태그, 개인 음성 제작이 한 세트로 묶이면 음성 앱 프로토타입 만드는 비용이 꽤 내려갈 수 있음

기술 맥락

수퍼토닉 3의 선택은 “클라우드에서 좋은 음성을 받아오자”가 아니라 “기기 안에서 충분히 좋은 음성을 만들자”에 가까워요. 그래서 모델 크기, 런타임, CPU 성능이 전부 제품 요구사항으로 연결돼요.
ONNX를 쓰는 이유는 실행 환경을 넓히기 위해서예요. 같은 모델을 브라우저, 모바일, 임베디드, 라즈베리파이 같은 곳에서 돌리려면 특정 프레임워크에 강하게 묶이면 배포가 귀찮아지거든요.
99M 매개변수와 404MB 자산 크기는 품질과 실행성 사이의 타협점이에요. 7억~20억 매개변수 모델은 품질은 좋을 수 있지만, 다운로드 용량과 메모리 부담 때문에 온디바이스 제품에는 바로 넣기 어렵죠.
텍스트 정규화가 강조되는 것도 실제 서비스에서는 중요해요. 숫자, 금액, 단위를 이상하게 읽으면 모델이 아무리 자연스러운 목소리를 내도 사용자 입장에서는 바로 깨진 제품처럼 느껴지거든요.
단 2번의 추론 단계로 음성을 만든다는 설명은 지연시간을 줄이려는 선택이에요. 음성 비서나 접근성 기능은 버튼 누르고 몇 초씩 기다리는 순간 사용성이 확 떨어지기 때문에, 생성 속도는 품질만큼 중요한 지표예요.

TTS가 클라우드 API 중심에서 로컬 실행 가능한 모델로 내려오면 프라이버시, 지연시간, 비용 구조가 확 바뀜. 특히 한국어 포함 31개 언어를 CPU만으로 처리한다는 점은 접근성 서비스나 엣지 디바이스 쪽에서 꽤 실용적인 뉴스임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사