본문으로 건너뛰기
피드

일레븐랩스, 호흡과 감정까지 살리는 음성 AI로 한국 시장 공략

ai-ml 약 6분

일레븐랩스가 한국에서 통신사, 미디어, 게임, 콜센터를 핵심 시장으로 보고 음성 AI 사업을 키우겠다고 밝혔다. 강점은 99개 이상 언어 지원, 음성합성·음성인식·보이스 클로닝·에이전트를 단일 플랫폼에서 제공하는 점, 그리고 감정과 호흡을 살린 표현력이다.

  • 1

    일레븐랩스는 99개 이상 언어를 자연스럽게 처리하는 다국어 음성 AI 엔진을 내세움

  • 2

    포춘 500 기업 과반이 채택했고 설립 3년 만에 기업가치 10조원 이상 데카콘이 됨

  • 3

    국내 고객으로 KBS, MBC, LG유플러스, 네이버, 크래프톤 등을 확보함

  • 4

    현재 200만개 이상 기업·업무 맞춤형 음성 AI 에이전트가 플랫폼 위에서 운영 중

  • 일레븐랩스가 한국 음성 AI 시장을 꽤 진지하게 보고 있음

    • 홍상원 일레븐랩스 한국지사장은 통신사, 미디어, 게임 산업, 콜센터를 한국의 핵심 타깃 시장으로 꼽음
    • 회사가 내세우는 경쟁력은 사람의 호흡과 감정 곡선을 담아내는 표현력임
    • 단순히 텍스트를 읽는 수준이 아니라 문맥을 이해하고 감정 연기까지 수행할 수 있다는 설명임
  • 기술 범위는 음성합성 하나에 그치지 않음

    • 99개 이상 언어를 동일한 수준의 자연스러움으로 처리하는 다국어 엔진을 기반으로 함
    • 음성합성(TTS), 음성인식(STT), 보이스 클로닝, 음성 AI 에이전트를 단일 플랫폼에서 제공하는 구조임
    • 대화뿐 아니라 비언어적 표현 이해, 회의 잡음 최소화, 화자 분리 기록까지 지원한다고 소개됨
  • 글로벌 고객 숫자도 꽤 세게 밀고 있음

    • 포춘 500 기업 과반이 이미 일레븐랩스를 채택했다고 밝힘
    • 설립 3년 만에 기업가치 10조원 이상 데카콘 기업이 됨
    • 넷플릭스, 엔비시유니버설, 아마존, 월트디즈니 같은 글로벌 미디어 기업이 대표 고객 사례로 언급됨
    • 핵심 활용처는 더빙과 콘텐츠 현지화로, 언어 장벽을 줄이는 쪽임

중요

> 일레븐랩스 플랫폼 위에서는 현재 200만개 이상 기업·업무 맞춤형 음성 AI 에이전트가 운영 중이라고 함. 음성 AI가 실험용 데모가 아니라 실제 업무 자동화 단위로 굴러가기 시작했다는 신호임.

  • 콘텐츠 업계에서는 제작 기획 단계부터 음성 AI를 고려하는 흐름이 생기고 있음

    • 홍 지사장은 최근 콘텐츠를 만들 때부터 더빙 등 음성 AI 활용을 염두에 두기 시작했다고 설명함
    • 콘텐츠 완성 이후 각국에 공급하려면 더빙, 권리 분배, 현지화 비용 문제가 복잡해지기 때문임
    • 처음부터 글로벌 배포를 생각하고 음성 AI를 설계에 넣는 전략으로 바뀌는 셈임
  • 한국에서도 이미 고객 기반을 만들고 있음

    • KBS, MBC, 라디오 방송 등 미디어 기업이 언급됨
    • LG유플러스, 네이버, 크래프톤도 주요 고객사로 소개됨
    • 스푼랩스와 팟캐스트 오디오 콘텐츠의 AI 기반 제작을 지원한 사례도 있음
    • 한국 콘텐츠, 게임, 통신 시장을 묶어 보면 음성 AI가 들어갈 자리가 꽤 많음
  • 목소리 데이터와 권리 구조도 중요한 포인트임

    • 일레븐랩스는 세계 각국에서 1만1000명 이상 목소리 데이터를 확보했다고 밝힘
    • 일반인이 자발적으로 목소리를 제공하도록 합리적인 수익과 사용 권한 배분 구조를 만들었다는 설명임
    • 단순 목소리 복제가 아니라 개인 정체성, 사용 권한, 보상을 명확히 하는 방향으로 진화하고 있다는 얘기임
  • 공공 영역 활용 가능성도 언급됨

    • 우크라이나에서 음성 AI 기반 행정·민원 처리가 이뤄지는 사례를 들며 공공 기여 가능성을 제시함
    • 한국에서도 공공기관, 기업 콜센터, 미디어 제작, 게임 캐릭터 음성 같은 영역으로 확장될 여지가 큼
    • 결국 음성 AI 경쟁은 ‘얼마나 사람처럼 들리냐’에서 ‘권리 문제를 정리한 채 산업 워크플로에 얼마나 잘 들어가냐’로 넘어가는 중임

기술 맥락

  • 일레븐랩스가 강조하는 선택은 음성합성만 잘하는 도구가 아니라 음성 AI 전체 파이프라인을 한 플랫폼에 묶는 방식이에요. 콘텐츠 제작자는 텍스트를 음성으로 바꾸는 일만 필요한 게 아니라 녹취, 화자 분리, 더빙, 권리 관리까지 같이 처리해야 하거든요.

  • 왜 한국 시장에서 미디어와 게임을 먼저 보는지도 꽤 명확해요. 한국 콘텐츠는 해외 배포가 중요하고, 게임은 캐릭터 음성과 다국어 현지화 수요가 크기 때문에 감정 표현이 자연스러운 음성 생성이 바로 비용과 제작 속도 문제로 이어져요.

  • 보이스 클로닝은 기술 성능만큼 권리 구조가 중요해요. 목소리는 개인 정체성과 직접 연결되기 때문에, 누가 제공했고 어떤 범위에서 쓸 수 있으며 수익을 어떻게 나누는지가 정리되지 않으면 기업 도입이 막히기 쉬워요.

  • 개발팀 입장에서는 음성 AI를 붙일 때 품질보다 운영 설계가 더 까다로울 수 있어요. 콜센터나 회의 기록에 들어가면 개인정보, 저장 기간, 화자 동의, 감사 로그 같은 요구사항이 같이 따라오기 때문이에요.

음성 AI는 이제 단순 낭독 품질 경쟁을 넘어 콘텐츠 제작, 더빙, 상담, 회의 기록, 공공 민원까지 이어지는 플랫폼 싸움으로 가고 있다. 한국은 콘텐츠와 게임 산업이 강해서, 현지화와 보이스 권리 관리가 꽤 중요한 실전 과제가 될 가능성이 크다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.