본문으로 건너뛰기
피드

크래프톤, 자체 AI 브랜드 'Raon' 공개 — 음성 LLM·실시간 대화·TTS·비전 인코더 4종 오픈소스

ai-ml 약 5분
vote
0
댓글
북마크

크래프톤이 AI 모델 브랜드 Raon을 출범하고 9B 음성 LLM, 국내 최초 실시간 양방향 음성 대화 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 음성 LLM은 10B 이하급에서 영어·한국어 모두 글로벌 1위 성능, 비전 인코더는 구글 SigLIP2를 일부 태스크에서 상회한다.

  • 1

    Raon-Speech 9B — 10B 이하급 공개 음성 언어 모델 중 영어·한국어 글로벌 1위 (40개 벤치마크 기준)

  • 2

    Raon-SpeechChat — 국내 최초 Full-duplex 실시간 양방향 음성 대화 모델

  • 3

    Raon-OpenTTS — 학습 데이터까지 전부 공개해 재현 가능성 확보

  • 4

    Raon-VisionEncoder — 처음부터 자체 학습, 일부 태스크에서 구글 SigLIP2 상회

  • 5

    모든 모델은 허깅페이스에 오픈소스로 공개

  • 크래프톤이 AI 모델 브랜드 'Raon(라온)'을 론칭하고 첫 모델 4종을 허깅페이스에 오픈소스로 공개
    • Raon은 순우리말 '즐거움'에서 따온 이름 — 영문명은 KRAFTON 철자 활용
    • 데이터 수집부터 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체 수행했다는 점을 강조

공개된 모델 4종

  • Raon-Speech — 9B 파라미터 음성 언어 모델
    • 텍스트 중심 LLM을 확장해 음성 이해·생성 지원
    • 10B 이하급 공개 음성 언어 모델 중 영어·한국어 모두 글로벌 1위 성능
    • 음성-텍스트 변환, 텍스트-음성 변환, 음성 기반 Q&A 등 7개 핵심 태스크, 40개 벤치마크 평가 기준
  • Raon-SpeechChat — 실시간 양방향(Full-duplex) 음성 대화 모델
    • 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 구조
    • 국내 최초 실시간 양방향 음성 모델
  • Raon-OpenTTS — 공개 데이터로만 학습된 TTS 모델
    • 직접 수집·정제한 데이터까지 전부 공개 — 누구나 동일 환경에서 학습 재현 가능
  • Raon-VisionEncoder — 처음부터 자체 학습한 비전 인코더
    • 사전 학습 모델 없이 공개 데이터만으로 학습
    • 일부 시각 인식 태스크에서 구글 SigLIP2 상회, 나머지도 SigLIP2 대비 90% 이상 성능
    • 크래프톤의 '독자 AI 파운데이션 모델' 프로젝트에 활용 예정

중요

> 게임사가 자체 파운데이션 모델을 풀스택으로 만든 건 이례적. 특히 Full-duplex 실시간 음성 대화 모델은 국내 최초 공개다.

  • 이강욱 크래프톤 CAIO — "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 국내 AI 생태계 성장에 기여하기를 기대"
  • 게임 본연의 즐거움을 AI로 창출한다는 철학 — NPC 음성 대화나 실시간 보이스 상호작용에 활용될 가능성이 큼

기술 맥락

Full-duplex 음성 모델이 왜 어려운지 알면 Raon-SpeechChat의 의미가 보여요. 기존 음성 비서는 사용자가 말을 끝내야 답을 시작하는 half-duplex 구조예요. "Hey Siri" 하고 멈춰야 반응하는 그거요. 근데 사람 대화는 겹쳐 말하고, 끼어들고, 맞장구 치잖아요. Full-duplex는 이걸 가능하게 하는 건데, 입력·출력 스트림을 동시에 처리하면서 턴테이킹을 실시간으로 판단해야 해서 모델 아키텍처 자체가 달라요. OpenAI의 Realtime API나 구글의 Gemini Live가 이 방향이고요.

크래프톤이 왜 이걸 먼저 밀었는지도 읽어볼 만해요. 게임 NPC와 플레이어가 진짜 대화처럼 상호작용하려면 이 기술이 필수거든요. "야 잠깐만"이라고 플레이어가 끼어들었을 때 NPC가 자연스럽게 멈추고 반응해야 몰입이 깨지지 않아요.

Raon-OpenTTS가 학습 데이터까지 전부 공개한다는 점도 눈여겨볼 만해요. TTS 업계는 라이선스 문제로 인해 대부분 비공개 데이터로 학습해서 재현이 불가능해요. 크래프톤이 수집·정제까지 한 데이터를 전부 공개한다는 건 연구 재현성 측면에서 의미가 커요. SigLIP2 대비 성능도 마찬가지로, 구글 급의 비전 인코더를 처음부터 자체 학습했다는 건 기술 내재화의 상징이에요.

게임사가 풀스택으로 파운데이션 모델을 만든 건 이례적이며, Full-duplex 음성 모델은 NPC 실시간 상호작용을 노린 게임 특화 기술 투자로 읽힌다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

컴퓨텍스 2026, AI 경쟁 무대가 클라우드 밖 현실 세계로 옮겨간다

컴퓨텍스 2026은 'AI 투게더'를 내세우며 AI가 모델·연산 경쟁을 넘어 로봇, 제조 자동화, 돌봄, 엣지 디바이스 같은 현실 세계 적용 단계로 이동하고 있다는 메시지를 던졌다. 33개 국가·지역에서 1,500개 기업이 참가하고 6,000개 부스를 운영하는 역대 최대 규모 행사로, 퀄컴·마벨·인텔·NXP 등 주요 기업 CEO들이 기조연설에 나선다. 특히 로봇용 대규모 언어 모델 시장이 2028년 1,000억 달러를 넘고 연평균 48.2% 성장할 것이라는 전망이 핵심 숫자로 제시됐다.

ai-ml

엔비디아, 전 세계 AI 클라우드 생태계 넓히며 AI 팩토리 판 키운다

엔비디아가 지티시 타이베이에서 전 세계 AI 클라우드 파트너 생태계를 6개 대륙으로 확장하고 있다고 밝혔다. 핵심은 단순 GPU 공급이 아니라, 토큰 비용과 전력 효율까지 최적화한 풀스택 AI 팩토리 인프라를 지역별로 깔겠다는 전략이다.

ai-ml

MS, 클라우드 없이 도는 윈도 온디바이스 AI와 개발자용 RTX 데브박스 공개

마이크로소프트가 빌드 2026에서 클라우드를 거치지 않고 기기 안에서 AI 에이전트를 돌리는 온디바이스 AI 전략을 공개했어. 소형언어모델 아이언 1.0 두 종, 엔비디아 RTX 스파크 기반 서피스 하드웨어, WSL·터미널·파일 탐색기 개선까지 묶어 윈도를 AI 개발 플랫폼으로 다시 밀어붙이는 그림이야.

ai-ml

MS, 오픈AI·앤스로픽 겨냥한 자체 추론 모델 7종 공개

마이크로소프트가 빌드 행사에서 자체 학습한 추론 모델 MAI-싱킹-1과 코딩 모델 MAI-코드-1 등 7종을 공개했어. 오픈AI와 앤스로픽의 투자자이자 파트너였던 MS가 이제는 자체 모델, 에이전트, 개발자용 AI 하드웨어까지 묶어 직접 경쟁하는 쪽으로 방향을 튼 셈이야.

ai-ml

알파벳 120조원 증자, 악재가 아니라 AI 수요 신호라는 해석

미래에셋증권은 알파벳의 800억달러 규모 유상증자를 AI 인프라 투자 확대 신호로 해석했다. 단기 주가 하락은 부담이 아니라 매수 기회이며, 알파벳을 글로벌 AI 최선호주로 유지한다는 내용이다.