---
title: "크래프톤, AI 모델 브랜드 ‘라온’ 출범하고 음성·비전 모델 4종 오픈소스로 공개"
published: 2026-05-11T15:05:04.377Z
canonical: https://jeff.news/article/2565
---
# 크래프톤, AI 모델 브랜드 ‘라온’ 출범하고 음성·비전 모델 4종 오픈소스로 공개

크래프톤이 AI 모델 브랜드 ‘라온’을 공개하고 음성 LLM, 실시간 음성 대화 모델, TTS 모델, 비전 인코더 4종을 허깅페이스에 오픈소스로 올림. 특히 9B 규모 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 모두 1위 성능을 기록했다고 밝힘.

- 크래프톤이 AI 모델 브랜드 ‘Raon’을 출범하고 모델 4종을 오픈소스로 공개함
  - 공개 위치는 글로벌 AI 모델 플랫폼 허깅페이스임
  - 모델 라인업은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder임
  - 이름은 ‘즐거움’을 뜻하는 순우리말 ‘라온’에서 따왔고, 영문명은 KRAFTON의 일부 철자를 활용했다고 함

- 이번 공개의 메시지는 “게임사가 AI도 해요” 수준이 아니라, 파운데이션 모델 개발 전 과정을 자체 수행했다는 선언에 가까움
  - 크래프톤은 데이터 수집, 모델 학습, 성능 평가까지 직접 수행할 수 있는 역량을 입증했다고 밝힘
  - 앞으로 Raon을 중심으로 글로벌 AI 기술 경쟁력을 강화하겠다는 계획도 같이 냄

> [!IMPORTANT]
> 가장 눈에 띄는 수치는 Raon-Speech임. 9B 파라미터 규모로, 10B 이하 공개 음성 언어 모델 중 영어와 한국어 모두 글로벌 1위 성능을 기록했다고 밝힘.

- Raon-Speech는 텍스트 중심 언어 모델을 음성까지 확장한 모델임
  - 음성 이해와 음성 생성이 가능한 음성 언어 모델로 소개됨
  - 음성 텍스트 변환, 텍스트 음성 변환, 음성 기반 질의응답 등 7개 핵심 태스크를 평가함
  - 총 40개 벤치마크에서 태스크별 평균 순위를 동일 비중으로 반영한 결과라고 함

- Raon-SpeechChat은 실시간 음성 대화 쪽을 겨냥함
  - 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 실시간 양방향 통신(Full-duplex)을 적용함
  - 크래프톤은 국내에서 발표된 최초의 실시간 양방향 음성 모델이라고 설명함
  - 음성 챗봇에서 답변이 끝날 때까지 기다리는 답답함을 줄이는 방향이라, 실제 UX 영향이 큼

- Raon-OpenTTS는 공개성과 재현성을 강하게 밀고 있음
  - 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델임
  - 기존에 활용하기 어려웠던 일부 데이터는 직접 수집·정제해 공개했다고 함
  - 전체 학습 데이터도 공개해 누구나 같은 환경에서 학습을 재현할 수 있게 했다는 점이 포인트임

- Raon-VisionEncoder는 멀티모달로 가기 위한 기반 부품임
  - 이미지를 AI가 이해 가능한 정보로 바꿔주는 비전 인코더임
  - 언어 모델과 결합하면 시각 정보를 처리하는 멀티모달 모델로 확장할 수 있음
  - 공개 데이터만 활용했고, 사전 학습된 모델을 쓰지 않고 처음부터 자체 학습했다고 밝힘
  - 일부 시각 인식 태스크에서는 구글 SigLIP2를 넘었고, 다른 태스크에서도 SigLIP2 대비 90% 이상 성능을 보였다고 함

- 국내 개발자에게는 꽤 실용적인 공개임
  - 한국어 음성 이해·생성 모델을 직접 비교하고 튜닝해볼 수 있는 재료가 늘어남
  - 게임 NPC, 실시간 음성 인터페이스, 접근성 기능, 한국어 TTS 실험 같은 쪽에 바로 연결될 수 있음
  - 특히 학습 데이터 공개까지 포함된 TTS는 “모델만 던져줌”보다 연구·재현 관점에서 훨씬 쓸모가 큼

---

## 기술 맥락

- 크래프톤이 공개한 4종은 각각 역할이 달라요. Raon-Speech는 음성을 이해하고 생성하는 중심 모델이고, Raon-SpeechChat은 실시간 대화 UX를, Raon-OpenTTS는 음성 합성을, Raon-VisionEncoder는 이미지 이해를 맡는 구조예요.

- 9B 규모 Raon-Speech가 눈에 띄는 이유는 크기 대비 성능을 강조했기 때문이에요. 10B 이하 공개 모델이라는 조건에서 영어와 한국어 모두 1위라고 밝힌 건, 대형 폐쇄 모델이 아니어도 한국어 음성 태스크에서 경쟁할 수 있다는 메시지거든요.

- Full-duplex가 중요한 건 음성 AI의 체감 품질이 모델 정확도만으로 결정되지 않아서예요. 사람이 말하는 도중 끼어들거나 흐름을 조정할 수 있어야 실제 대화처럼 느껴지고, 게임 NPC나 음성 비서에서는 이 차이가 꽤 크게 나요.

- Raon-OpenTTS의 데이터 공개도 개발자 입장에선 큽니다. 모델 가중치만 있으면 결과를 써볼 수는 있지만, 학습 데이터와 조건이 공개돼야 성능을 검증하고 다시 학습해볼 수 있거든요.

- Raon-VisionEncoder는 장기적으로 멀티모달 모델의 입구예요. 이미지를 벡터로 바꿔 언어 모델과 붙일 수 있어야 화면 이해, 캐릭터 인식, 게임 상황 해석 같은 작업으로 확장할 수 있어요.

## 핵심 포인트

- 크래프톤이 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder를 공개함
- Raon-Speech는 9B 파라미터 규모이며 7개 태스크와 40개 벤치마크 종합 평가를 기준으로 영어·한국어 모두 1위 성능을 기록했다고 밝힘
- Raon-SpeechChat은 국내 최초 실시간 양방향 음성 모델로 소개됨
- Raon-OpenTTS는 공개 음성 데이터 기반 학습과 전체 학습 데이터 공개를 강조함
- Raon-VisionEncoder는 일부 시각 인식 태스크에서 구글 SigLIP2를 넘고, 다른 태스크에서도 90% 이상 성능을 보였다고 함

## 인사이트

국내 게임사가 음성·비전 파운데이션 모델을 오픈소스로 공개했다는 점이 꽤 큼. 게임 AI 얘기처럼 보이지만, 한국어 음성 인터랙션과 멀티모달 모델을 직접 테스트하려는 개발자에게는 바로 만져볼 수 있는 재료가 생긴 셈임.