크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

open-source 2026-04-18 약 6분

 tags

#krafton #llm #speech-model #open-source #multimodal

vote

북마크

크래프톤이 AI 모델 브랜드 Raon을 출범하고 음성 LLM, 실시간 양방향 음성 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 9B 파라미터 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 글로벌 1위를 기록했고, Raon-VisionEncoder는 일부 태스크에서 구글 SigLIP2를 상회한다.

1
Raon-Speech(9B)가 10B 이하 공개 음성 LLM 중 영어·한국어 글로벌 1위
2
Raon-SpeechChat은 국내 첫 Full-duplex 실시간 양방향 음성 모델
3
Raon-OpenTTS는 학습 데이터까지 전부 공개해 재현성 확보
4
Raon-VisionEncoder는 공개 데이터만으로 처음부터 학습해 SigLIP2 상회 성능

크래프톤이 AI 모델 브랜드 'Raon(라온)' 을 론칭하고, 첫 모델 4종을 허깅페이스에 오픈소스로 공개했음
- 라온 = '즐거움'을 뜻하는 순우리말. 영문명은 KRAFTON 철자에서 일부를 따옴
- 데이터 수집모델 학습성능 평가까지 파운데이션 모델 전 과정을 자체 수행했다는 점을 강조
공개된 4종은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder

Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

텍스트 LLM을 확장해 음성 이해·생성까지 되는 음성 언어 모델
- 파라미터 규모 90억(9B)
- 10B 이하급 공개 음성 언어 모델 중 영어/한국어 모두 글로벌 1위 성능
벤치마크 구성
- 음성→텍스트, 텍스트→음성, 음성 기반 QA 등 7개 핵심 태스크 × 40개 벤치마크 종합 평가
- 태스크별 평균 순위를 동일 비중 반영

❗중요

> 한국 기업이 10B 이하 체급에서 영어·한국어 동시 1위를 찍은 음성 LLM을 풀 오픈소스로 던진 건 드문 장면. 연구자·스타트업이 바로 가져다 파인튜닝 가능.

Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

Full-duplex(양방향 통신) 기술 적용 — 사용자와 모델이 대화 중 자유롭게 끼어들 수 있음
- 국내 발표된 최초의 실시간 양방향 음성 모델
- GPT-4o의 음성 모드가 떠오르는 대목

Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델
- 기존에 쓰기 어려웠던 일부 데이터는 크래프톤이 직접 수집·정제해 공개
- 전체 학습 데이터도 같이 공개해 누구나 동일 환경에서 재현 가능
재현성까지 챙긴 OSS TTS는 흔치 않은 구성

Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

이미지를 AI가 이해 가능한 표현으로 바꾸는 비전 인코더
- 언어 모델과 결합하면 시각 정보 처리 가능(멀티모달 기반)
- 공개 데이터만 활용하고 사전 학습 모델 없이 처음부터 자체 학습
성능 비교
- 일부 시각 인식 태스크에서 구글 대표 비전 인코더 SigLIP2를 상회
- 그 외 태스크에서도 SigLIP2 대비 90% 이상 성능 유지
'독자 AI 파운데이션 모델' 프로젝트에서도 활용 예정

의미와 배경

이강욱 크래프톤 CAIO "이번 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"
- 대규모 학습 데이터와 핵심 모델을 공유해 국내 AI 생태계 성장에 기여하겠다는 메시지
게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합하는 사례
- 게임 내 NPC 대화, 실시간 음성 인터랙션 같은 직접 응용처를 염두에 둔 전략으로 읽힘

기술 맥락

크래프톤이 왜 이걸 오픈소스로 풀었냐 하면, 허깅페이스 공개는 단순 홍보가 아니라 리크루팅·생태계 기여·표준화를 동시에 노리는 움직임이에요. AI 연구자 채용에서 "오픈소스 기여 이력 있는 조직"이라는 브랜딩이 꽤 결정적인 변수거든요.

음성 언어 모델(Speech Language Model)이 요즘 핫한 이유는 GPT-4o의 음성 모드 이후 "텍스트만 처리하는 LLM"에서 "음성 입출력을 네이티브로 처리하는 LLM"으로 축이 옮겨가고 있어서예요. 기존 TTS/STT 파이프라인을 따로 붙이는 방식은 지연이 크고 억양·감정 전달이 어려운데, 음성 LLM은 이걸 한 모델에서 처리해 훨씬 자연스러운 대화가 가능해져요.

Full-duplex(양방향 통신)는 전화선 용어에서 온 건데, 이쪽 맥락에선 모델이 응답 생성 중에도 사용자 입력을 계속 듣고 중간에 끼어들 수 있는 구조를 말해요. 기존 음성 에이전트는 '내가 말하고 → 모델이 말하고' 식의 턴제였는데, full-duplex는 실제 사람 대화처럼 겹쳐 말할 수 있어요. 게임 NPC가 "어어 그건..." 하고 끼어드는 장면이 가능해지는 거죠.

SigLIP2는 구글이 CLIP 스타일을 개선해 내놓은 비전-언어 정렬 모델이에요. 이미지를 언어 모델이 이해 가능한 벡터로 바꿔주는 역할을 하는데, 멀티모달 LLM의 '눈'에 해당하는 부품이거든요. 여기서 구글 모델을 일부 상회한다는 건 비전 기반 AI 스택에서도 경쟁력을 증명했다는 의미예요.

게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합한 사례. 한국 기업발 오픈소스 모델이 체급 내 글로벌 1위를 찍은 건 드문 장면이다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

open-source 2026-07-13

NIPA, 260명 규모 오픈소스 컨트리뷰션 아카데미 시작

정보통신산업진흥원이 2026 오픈소스 컨트리뷰션 아카데미 발대식을 열고 13주간의 프로젝트 활동을 시작했음. 국내 개발자들이 GitHub 기반 글로벌 협업 환경에서 코드, 문서, 버그 수정, 풀 리퀘스트를 직접 경험하게 하는 프로그램임.

open-source 2026-07-13

그누보드7, 디딤과 손잡고 멀티클라우드 도입 문턱 낮춘다

에스아이알소프트가 클라우드 전문기업 디딤과 협력해 그누보드7 기반 웹서비스 구축·운영 환경을 넓히기로 했다. 커뮤니티, 쇼핑몰, 예약, 구독형 서비스 같은 실무 프로젝트에서 서버 구성과 운영 부담을 줄이는 게 핵심이다.

open-source 2026-07-13

오픈소스 컨트리뷰션 아카데미 출범, 국내 개발자 260여 명 참여

정보통신산업진흥원이 2026 오픈소스 컨트리뷰션 아카데미 발대식을 열고 13주간의 활동을 시작했다. 11개 프로젝트팀의 멘토와 멘티 260여 명이 글로벌 오픈소스 프로젝트 기여를 목표로 코드 개발, 문서화, 오류 수정 등을 진행한다.

open-source 2026-07-13

NIPA, 국내 개발자 260명 규모 오픈소스 컨트리뷰션 아카데미 시작

정보통신산업진흥원이 2026 오픈소스 컨트리뷰션 아카데미 발대식을 열고 국내 개발자의 글로벌 오픈소스 프로젝트 참여를 지원한다. 11개 프로젝트팀, 멘토·멘티 260여 명이 13주 동안 깃허브 기반 협업, 코드 리뷰, 문서화, 오류 수정 등을 실제로 경험한다.

open-source 2026-07-12

Ghostty 엔진을 Emacs 안으로 끌고 온 터미널, Ghostel.el

Ghostel.el은 Ghostty의 libghostty-vt를 기반으로 Emacs 안에서 동작하는 터미널 에뮬레이터다. eat 스타일의 여러 입력 모드, 안정적인 복사 모드, line mode, 자동 password prompt 처리, compile-mode 유사 실행 버퍼, Kitty graphics 지원, 높은 throughput을 앞세워 eat/vterm과 차별화함.

크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

요약

핵심 포인트

핵심 개념

분석

Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

의미와 배경

기술 맥락

인사이트

댓글

댓글

크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

요약

핵심 포인트

핵심 개념

분석

Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

의미와 배경

기술 맥락

인사이트

댓글

댓글

관련 기사