---
title: "크래프톤, AI 모델 브랜드 ‘라온’ 공개…음성·TTS·비전 모델 4종 오픈소스화"
published: 2026-05-21T15:05:03.095Z
canonical: https://jeff.news/article/3083
---
# 크래프톤, AI 모델 브랜드 ‘라온’ 공개…음성·TTS·비전 모델 4종 오픈소스화

크래프톤이 AI 모델 브랜드 라온을 출범하고 음성 언어 모델, 실시간 음성 대화 모델, TTS 모델, 비전 인코더를 허깅페이스에 오픈소스로 공개했다. 특히 90억 파라미터 규모 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어와 한국어 모두에서 글로벌 1위 성능을 기록했다고 밝혔다.

- 크래프톤이 AI 모델 브랜드 ‘Raon(라온)’을 공개하고 모델 4종을 허깅페이스에 오픈소스로 올림
  - 공개된 모델은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder
  - 라온은 ‘즐거움’을 뜻하는 순우리말에서 따왔고, 영문명은 KRAFTON의 일부 철자를 활용했다고 함

- 크래프톤이 강조한 건 “모델을 가져다 쓴다”가 아니라 “파운데이션 모델 개발 전 과정을 자체 수행했다”는 점임
  - 데이터 수집, 모델 학습, 성능 평가까지 내부 역량으로 해냈다는 메시지
  - 게임 회사가 AI 연구 브랜드를 따로 세우고 공개 모델까지 내놓은 거라, 국내 AI 생태계 관점에서도 꽤 눈에 띔

> [!IMPORTANT]
> Raon-Speech는 90억 파라미터 규모로, 10B 이하 공개 음성 언어 모델 중 영어와 한국어 모두 글로벌 1위 성능을 기록했다고 소개됨. 기준은 7개 핵심 태스크와 40개 벤치마크 종합 평가임.

- Raon-Speech는 텍스트 중심 언어 모델을 음성 이해·생성까지 확장한 음성 언어 모델임
  - 음성 텍스트 변환, 텍스트 음성 변환, 음성 기반 질의응답 같은 7개 핵심 태스크로 평가됨
  - 40개 벤치마크의 태스크별 평균 순위를 동일 비중으로 반영했다는 설명이 붙어 있음
  - 영어와 한국어 모두에서 성능을 강조한 점이 한국 개발자 입장에선 특히 중요함

- Raon-SpeechChat은 실시간 양방향 음성 대화를 겨냥한 모델임
  - 사용자가 말하는 중간에 자유롭게 끼어들 수 있는 풀듀플렉스(Full-duplex) 기술을 적용했다고 함
  - 기사에서는 국내에서 발표된 최초의 실시간 양방향 음성 모델이라고 소개됨
  - 게임 NPC나 실시간 캐릭터 인터랙션을 떠올리면 왜 크래프톤이 이걸 미는지 감이 옴

- Raon-OpenTTS는 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델임
  - 기존에 활용하기 어려웠던 일부 데이터는 직접 수집·정제해 공개했다고 함
  - 전체 학습 데이터도 공개해 누구나 동일한 환경에서 학습을 재현할 수 있게 했다는 점을 강조함

- Raon-VisionEncoder는 이미지를 AI가 이해 가능한 정보로 바꾸는 비전 인코더임
  - 언어 모델과 결합하면 시각 정보를 처리하는 멀티모달 모델 구성에 쓰일 수 있음
  - 공개 데이터만 활용했고, 사전 학습된 모델을 가져오지 않고 처음부터 자체 학습했다고 밝힘
  - 일부 시각 인식 태스크에서는 구글의 SigLIP2를 상회했고, 다른 태스크에서도 SigLIP2 대비 90% 이상 성능을 보였다고 함

- 이 모델들은 크래프톤의 ‘독자 AI 파운데이션 모델’ 프로젝트와도 연결될 예정임
  - 특히 비전 인코더는 해당 프로젝트에서 활용될 기술로 언급됨
  - 게임 개발에서 음성, 이미지, 캐릭터 상호작용이 다 필요한 걸 생각하면 Raon 라인업은 꽤 의도적으로 짜인 구성임

- 크래프톤 CAIO 이강욱은 대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자가 자유롭게 활용하길 기대한다고 밝힘
  - 멀티모달 기술 발전과 국내 AI 생태계 성장에 기여하겠다는 메시지도 같이 나옴
  - 실제 활용성은 모델 카드, 라이선스, 추론 비용, 벤치마크 재현 가능성을 개발자들이 검증하면서 갈릴 듯함

---

## 기술 맥락

- 크래프톤이 음성·TTS·비전 모델을 같이 낸 건 게임 회사 입장에서 꽤 자연스러운 선택이에요. 게임 안의 AI 캐릭터는 텍스트만 잘해서는 부족하고, 말하고 듣고 화면 맥락까지 이해해야 하거든요.

- Raon-Speech가 중요한 이유는 한국어와 영어를 같이 밀었다는 점이에요. 글로벌 게임사는 영어 성능이 필요하고, 국내 개발사와 한국 유저 경험까지 생각하면 한국어 음성 처리 품질도 같이 챙겨야 해요.

- 풀듀플렉스 음성 모델은 단순 음성 챗봇보다 난도가 높아요. 사람이 말하는 중간에 끼어들거나 멈추는 상황을 처리해야 해서, 지연 시간과 턴 관리가 사용자 경험을 크게 좌우하거든요.

- Raon-OpenTTS에서 학습 데이터 공개를 강조한 것도 의미가 있어요. TTS는 데이터 품질과 라이선스 이슈가 성능만큼 중요해서, 공개 데이터 기반 재현 가능성을 확보하면 연구자와 개발자가 실험하기 훨씬 쉬워져요.

- 비전 인코더를 자체 학습했다는 대목은 멀티모달 파운데이션 모델을 장기적으로 직접 쌓겠다는 신호에 가까워요. 이미지를 언어 모델에 연결하는 앞단을 통제할 수 있어야 게임 화면, 캐릭터, 아이템 같은 도메인 데이터에 맞춘 확장이 쉬워져요.

## 핵심 포인트

- 크래프톤은 라온 브랜드로 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder 4종을 공개했다
- Raon-Speech는 9B 규모 음성 언어 모델이며 7개 태스크와 40개 벤치마크 종합 평가에서 10B 이하급 공개 모델 중 영어·한국어 1위 성능을 기록했다고 설명됐다
- Raon-SpeechChat은 국내 최초로 공개된 실시간 양방향 음성 모델로 소개됐다
- Raon-OpenTTS는 공개 음성 데이터 기반 학습과 전체 학습 데이터 공개를 강조했다
- Raon-VisionEncoder는 공개 데이터만으로 처음부터 자체 학습됐고 일부 시각 인식 태스크에서 SigLIP2를 넘었다고 밝혔다

## 인사이트

국내 게임사가 음성·비전 파운데이션 모델을 직접 학습하고 오픈소스로 공개했다는 점이 포인트다. 게임 NPC, 실시간 음성 상호작용, 멀티모달 캐릭터 쪽으로 연결될 수 있어서 단순 홍보성 AI 발표보다 개발자 관점에서 볼 거리가 있다.
