---
title: "크래프톤, 자체 AI 브랜드 'Raon' 공개 — 음성 LLM·실시간 대화·TTS·비전 인코더 4종 오픈소스"
published: 2026-04-18T09:05:03.606Z
canonical: https://jeff.news/article/1801
---
# 크래프톤, 자체 AI 브랜드 'Raon' 공개 — 음성 LLM·실시간 대화·TTS·비전 인코더 4종 오픈소스

크래프톤이 AI 모델 브랜드 Raon을 출범하고 9B 음성 LLM, 국내 최초 실시간 양방향 음성 대화 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 음성 LLM은 10B 이하급에서 영어·한국어 모두 글로벌 1위 성능, 비전 인코더는 구글 SigLIP2를 일부 태스크에서 상회한다.

- 크래프톤이 AI 모델 브랜드 'Raon(라온)'을 론칭하고 첫 모델 4종을 허깅페이스에 **오픈소스로 공개**
  - Raon은 순우리말 '즐거움'에서 따온 이름 — 영문명은 KRAFTON 철자 활용
  - 데이터 수집부터 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체 수행했다는 점을 강조

### 공개된 모델 4종

- **Raon-Speech** — 9B 파라미터 음성 언어 모델
  - 텍스트 중심 LLM을 확장해 음성 이해·생성 지원
  - **10B 이하급 공개 음성 언어 모델 중 영어·한국어 모두 글로벌 1위** 성능
  - 음성-텍스트 변환, 텍스트-음성 변환, 음성 기반 Q&A 등 7개 핵심 태스크, 40개 벤치마크 평가 기준
- **Raon-SpeechChat** — 실시간 양방향(Full-duplex) 음성 대화 모델
  - 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 구조
  - **국내 최초 실시간 양방향 음성 모델**
- **Raon-OpenTTS** — 공개 데이터로만 학습된 TTS 모델
  - 직접 수집·정제한 데이터까지 전부 공개 — **누구나 동일 환경에서 학습 재현 가능**
- **Raon-VisionEncoder** — 처음부터 자체 학습한 비전 인코더
  - 사전 학습 모델 없이 공개 데이터만으로 학습
  - 일부 시각 인식 태스크에서 **구글 SigLIP2 상회**, 나머지도 SigLIP2 대비 90% 이상 성능
  - 크래프톤의 '독자 AI 파운데이션 모델' 프로젝트에 활용 예정

> [!IMPORTANT]
> 게임사가 자체 파운데이션 모델을 풀스택으로 만든 건 이례적. 특히 Full-duplex 실시간 음성 대화 모델은 국내 최초 공개다.

- 이강욱 크래프톤 CAIO — "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 국내 AI 생태계 성장에 기여하기를 기대"
- 게임 본연의 즐거움을 AI로 창출한다는 철학 — NPC 음성 대화나 실시간 보이스 상호작용에 활용될 가능성이 큼

---

## 기술 맥락

Full-duplex 음성 모델이 왜 어려운지 알면 Raon-SpeechChat의 의미가 보여요. 기존 음성 비서는 사용자가 말을 끝내야 답을 시작하는 half-duplex 구조예요. "Hey Siri" 하고 멈춰야 반응하는 그거요. 근데 사람 대화는 겹쳐 말하고, 끼어들고, 맞장구 치잖아요. Full-duplex는 이걸 가능하게 하는 건데, 입력·출력 스트림을 동시에 처리하면서 턴테이킹을 실시간으로 판단해야 해서 모델 아키텍처 자체가 달라요. OpenAI의 Realtime API나 구글의 Gemini Live가 이 방향이고요.

크래프톤이 왜 이걸 먼저 밀었는지도 읽어볼 만해요. 게임 NPC와 플레이어가 진짜 대화처럼 상호작용하려면 이 기술이 필수거든요. "야 잠깐만"이라고 플레이어가 끼어들었을 때 NPC가 자연스럽게 멈추고 반응해야 몰입이 깨지지 않아요.

Raon-OpenTTS가 학습 데이터까지 전부 공개한다는 점도 눈여겨볼 만해요. TTS 업계는 라이선스 문제로 인해 대부분 비공개 데이터로 학습해서 재현이 불가능해요. 크래프톤이 수집·정제까지 한 데이터를 전부 공개한다는 건 연구 재현성 측면에서 의미가 커요. SigLIP2 대비 성능도 마찬가지로, 구글 급의 비전 인코더를 처음부터 자체 학습했다는 건 기술 내재화의 상징이에요.

## 핵심 포인트

- Raon-Speech 9B — 10B 이하급 공개 음성 언어 모델 중 영어·한국어 글로벌 1위 (40개 벤치마크 기준)
- Raon-SpeechChat — 국내 최초 Full-duplex 실시간 양방향 음성 대화 모델
- Raon-OpenTTS — 학습 데이터까지 전부 공개해 재현 가능성 확보
- Raon-VisionEncoder — 처음부터 자체 학습, 일부 태스크에서 구글 SigLIP2 상회
- 모든 모델은 허깅페이스에 오픈소스로 공개

## 인사이트

게임사가 풀스택으로 파운데이션 모델을 만든 건 이례적이며, Full-duplex 음성 모델은 NPC 실시간 상호작용을 노린 게임 특화 기술 투자로 읽힌다.
