---
title: "크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위"
published: 2026-04-18T06:05:03.902Z
canonical: https://jeff.news/article/1790
---
# 크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

크래프톤이 AI 모델 브랜드 Raon을 출범하고 음성 LLM, 실시간 양방향 음성 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 9B 파라미터 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 글로벌 1위를 기록했고, Raon-VisionEncoder는 일부 태스크에서 구글 SigLIP2를 상회한다.

- 크래프톤이 AI 모델 브랜드 **'Raon(라온)'** 을 론칭하고, 첫 모델 4종을 **허깅페이스에 오픈소스로 공개**했음
  - 라온 = '즐거움'을 뜻하는 순우리말. 영문명은 KRAFTON 철자에서 일부를 따옴
  - 데이터 수집~모델 학습~성능 평가까지 파운데이션 모델 전 과정을 자체 수행했다는 점을 강조
- 공개된 4종은 **Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder**

### Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

- 텍스트 LLM을 확장해 **음성 이해·생성까지 되는 음성 언어 모델**
  - 파라미터 규모 **90억(9B)**
  - **10B 이하급 공개 음성 언어 모델 중 영어/한국어 모두 글로벌 1위 성능**
- 벤치마크 구성
  - 음성→텍스트, 텍스트→음성, 음성 기반 QA 등 **7개 핵심 태스크 × 40개 벤치마크** 종합 평가
  - 태스크별 평균 순위를 동일 비중 반영

> [!IMPORTANT]
> 한국 기업이 10B 이하 체급에서 영어·한국어 동시 1위를 찍은 음성 LLM을 풀 오픈소스로 던진 건 드문 장면. 연구자·스타트업이 바로 가져다 파인튜닝 가능.

### Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

- **Full-duplex(양방향 통신)** 기술 적용 — 사용자와 모델이 대화 중 자유롭게 끼어들 수 있음
  - 국내 발표된 **최초의 실시간 양방향 음성 모델**
  - GPT-4o의 음성 모드가 떠오르는 대목

### Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

- **공개 음성 데이터만으로 학습된** 텍스트-음성 변환 모델
  - 기존에 쓰기 어려웠던 일부 데이터는 **크래프톤이 직접 수집·정제해 공개**
  - 전체 학습 데이터도 같이 공개해 **누구나 동일 환경에서 재현** 가능
- 재현성까지 챙긴 OSS TTS는 흔치 않은 구성

### Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

- 이미지를 AI가 이해 가능한 표현으로 바꾸는 **비전 인코더**
  - 언어 모델과 결합하면 시각 정보 처리 가능(멀티모달 기반)
  - **공개 데이터만** 활용하고 사전 학습 모델 없이 **처음부터 자체 학습**
- 성능 비교
  - 일부 시각 인식 태스크에서 구글 대표 비전 인코더 **SigLIP2를 상회**
  - 그 외 태스크에서도 SigLIP2 대비 **90% 이상 성능** 유지
- '독자 AI 파운데이션 모델' 프로젝트에서도 활용 예정

### 의미와 배경

- 이강욱 크래프톤 CAIO "이번 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"
  - 대규모 학습 데이터와 핵심 모델을 공유해 국내 AI 생태계 성장에 기여하겠다는 메시지
- 게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합하는 사례
  - 게임 내 NPC 대화, 실시간 음성 인터랙션 같은 직접 응용처를 염두에 둔 전략으로 읽힘

---

## 기술 맥락

크래프톤이 왜 이걸 오픈소스로 풀었냐 하면, 허깅페이스 공개는 단순 홍보가 아니라 리크루팅·생태계 기여·표준화를 동시에 노리는 움직임이에요. AI 연구자 채용에서 "오픈소스 기여 이력 있는 조직"이라는 브랜딩이 꽤 결정적인 변수거든요.

음성 언어 모델(Speech Language Model)이 요즘 핫한 이유는 GPT-4o의 음성 모드 이후 "텍스트만 처리하는 LLM"에서 "음성 입출력을 네이티브로 처리하는 LLM"으로 축이 옮겨가고 있어서예요. 기존 TTS/STT 파이프라인을 따로 붙이는 방식은 지연이 크고 억양·감정 전달이 어려운데, 음성 LLM은 이걸 한 모델에서 처리해 훨씬 자연스러운 대화가 가능해져요.

Full-duplex(양방향 통신)는 전화선 용어에서 온 건데, 이쪽 맥락에선 모델이 응답 생성 중에도 사용자 입력을 계속 듣고 중간에 끼어들 수 있는 구조를 말해요. 기존 음성 에이전트는 '내가 말하고 → 모델이 말하고' 식의 턴제였는데, full-duplex는 실제 사람 대화처럼 겹쳐 말할 수 있어요. 게임 NPC가 "어어 그건..." 하고 끼어드는 장면이 가능해지는 거죠.

SigLIP2는 구글이 CLIP 스타일을 개선해 내놓은 비전-언어 정렬 모델이에요. 이미지를 언어 모델이 이해 가능한 벡터로 바꿔주는 역할을 하는데, 멀티모달 LLM의 '눈'에 해당하는 부품이거든요. 여기서 구글 모델을 일부 상회한다는 건 비전 기반 AI 스택에서도 경쟁력을 증명했다는 의미예요.

## 핵심 포인트

- Raon-Speech(9B)가 10B 이하 공개 음성 LLM 중 영어·한국어 글로벌 1위
- Raon-SpeechChat은 국내 첫 Full-duplex 실시간 양방향 음성 모델
- Raon-OpenTTS는 학습 데이터까지 전부 공개해 재현성 확보
- Raon-VisionEncoder는 공개 데이터만으로 처음부터 학습해 SigLIP2 상회 성능

## 인사이트

게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합한 사례. 한국 기업발 오픈소스 모델이 체급 내 글로벌 1위를 찍은 건 드문 장면이다.