본문으로 건너뛰기
피드

수퍼톤, CPU만으로 31개 언어 읽는 온디바이스 TTS 공개

ai-ml 약 6분
vote
0
댓글
북마크

수퍼톤이 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 실행되는 온디바이스 음성합성 모델 수퍼토닉 3를 공개했다. 99M 매개변수, 404MB ONNX 자산, 31개 언어 지원, CPU 실시간 합성이 핵심이다.

  • 1

    수퍼토닉 3는 한국어 포함 31개 언어를 지원하며 깃허브 트렌딩 1위에 오름

  • 2

    GPU 없이 CPU 중심으로 동작하고 브라우저에서는 onnxruntime-web 기반 클라이언트 실행이 가능함

  • 3

    텍스트 정규화, 감정 태그, 2단계 추론, LARoPE와 자체 정화 플로우 매칭이 주요 개선점임

  • 수퍼톤이 새 온디바이스 텍스트 음성 변환(TTS) 모델 수퍼토닉 3를 공개함

    • 한국어 포함 31개 언어를 지원함
    • 인터넷 연결 없이 PC, 모바일, 브라우저, 임베디드 기기에서 직접 실행하는 구조임
    • 깃허브에 공개됐고 상업적 사용도 가능하며, 깃허브 트렌딩 차트 1위 인기 저장소에 올랐음
  • 이전 버전 대비 가장 큰 변화는 언어 지원 범위임

    • 수퍼토닉 2는 영어, 한국어, 스페인어, 포르투갈어, 프랑스어 등 5개 언어를 지원했음
    • 수퍼토닉 3는 일본어, 독일어, 아랍어, 러시아어, 터키어, 베트남어 등을 포함해 총 31개 언어로 확장됨
  • 모델은 ONNX 기반의 경량 TTS 시스템으로 설계됨

    • 모델 규모는 약 9,900만 매개변수(99M) 수준임
    • 공개된 ONNX 자산 전체 크기는 약 404MB임
    • 7억~20억 매개변수급 대형 오픈소스 TTS 모델보다 훨씬 작아서 다운로드, 메모리, 실행 속도에서 유리함

중요

> 핵심은 “31개 언어 TTS”만이 아님. GPU 없이 CPU만으로 로컬 기기에서 실시간에 가까운 음성합성을 노린다는 점이 진짜 포인트임.

  • 수퍼토닉 3는 GPU 없이 CPU만으로 빠르게 동작하도록 만들어졌음

    • 전자잉크 리더기 오닉스 부크스 고 6에서도 비행기 모드 상태로 실시간에 가까운 음성 생성을 구현했다고 함
    • 브라우저에서는 onnxruntime-web 기반으로 순수 클라이언트 실행이 가능함
    • 모바일, 라즈베리파이 같은 저전력 장치에서도 동작하는 쪽을 겨냥함
  • 음성 품질 쪽에서는 반복, 생략, 발음, 화자 유사성을 개선했다고 강조함

    • TTS에서 자주 터지는 단어 반복이나 문장 누락 오류를 줄였다고 설명함
    • 실제 제품 환경에서 안정성을 높였다는 게 수퍼톤의 주장임
  • 감정 표현 태그도 새로 들어감

    • 텍스트 안에 , , , 같은 태그를 넣으면 웃음, 숨소리, 한숨 같은 표현을 음성에 반영할 수 있음
    • 별도 전처리 시스템 없이 텍스트만으로 감정과 호흡을 제어할 수 있어서 음성 비서나 접근성 서비스에 꽤 쓸 만해 보임
  • 텍스트 정규화(Text Normalization)도 제품 관점에서는 꽤 큰 포인트임

    • 일반 TTS는 금액, 날짜, 전화번호, 단위 표기를 자연스럽게 읽기 위해 별도 전처리가 필요한 경우가 많음
    • 수퍼토닉 3는 “$5.2M”을 “520만달러”, “30kph”를 “시속 30킬로미터”처럼 읽을 수 있다고 설명함
    • 수퍼톤은 오픈AI TTS-1, 제미나이 2.5 플래시 TTS, 마이크로소프트, 일레븐랩스 등이 일부 금융·단위 표현에서 오류를 보인 테스트에서 수퍼토닉 3가 정확히 처리했다고 주장함
  • 내부 구조는 음성 오토인코더와 플로우 매칭 기반 생성을 유지하면서 정렬 정확도를 높이는 쪽으로 개선됨

    • LARoPE(Length-Aware Rotary Position Embedding)를 추가함
    • 자체 정화 플로우 매칭(Self-Purifying Flow Matching) 기법을 넣음
    • 이 조합으로 단 2번의 추론 단계만으로 자연스러운 음성을 생성할 수 있다는 설명임
  • 수퍼톤은 보이스 빌더까지 붙여 개발자용 확장성도 밀고 있음

    • 개발자가 자신의 음성을 기반으로 맞춤형 TTS 모델을 만들 수 있게 지원함
    • 로컬 실행, 다국어, 감정 태그, 개인 음성 제작이 한 세트로 묶이면 음성 앱 프로토타입 만드는 비용이 꽤 내려갈 수 있음

기술 맥락

  • 수퍼토닉 3의 선택은 “클라우드에서 좋은 음성을 받아오자”가 아니라 “기기 안에서 충분히 좋은 음성을 만들자”에 가까워요. 그래서 모델 크기, 런타임, CPU 성능이 전부 제품 요구사항으로 연결돼요.

  • ONNX를 쓰는 이유는 실행 환경을 넓히기 위해서예요. 같은 모델을 브라우저, 모바일, 임베디드, 라즈베리파이 같은 곳에서 돌리려면 특정 프레임워크에 강하게 묶이면 배포가 귀찮아지거든요.

  • 99M 매개변수와 404MB 자산 크기는 품질과 실행성 사이의 타협점이에요. 7억~20억 매개변수 모델은 품질은 좋을 수 있지만, 다운로드 용량과 메모리 부담 때문에 온디바이스 제품에는 바로 넣기 어렵죠.

  • 텍스트 정규화가 강조되는 것도 실제 서비스에서는 중요해요. 숫자, 금액, 단위를 이상하게 읽으면 모델이 아무리 자연스러운 목소리를 내도 사용자 입장에서는 바로 깨진 제품처럼 느껴지거든요.

  • 단 2번의 추론 단계로 음성을 만든다는 설명은 지연시간을 줄이려는 선택이에요. 음성 비서나 접근성 기능은 버튼 누르고 몇 초씩 기다리는 순간 사용성이 확 떨어지기 때문에, 생성 속도는 품질만큼 중요한 지표예요.

TTS가 클라우드 API 중심에서 로컬 실행 가능한 모델로 내려오면 프라이버시, 지연시간, 비용 구조가 확 바뀜. 특히 한국어 포함 31개 언어를 CPU만으로 처리한다는 점은 접근성 서비스나 엣지 디바이스 쪽에서 꽤 실용적인 뉴스임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.