본문으로 건너뛰기
피드

크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

open-source 약 6분
vote
0
댓글
북마크

크래프톤이 AI 모델 브랜드 Raon을 출범하고 음성 LLM, 실시간 양방향 음성 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 9B 파라미터 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 글로벌 1위를 기록했고, Raon-VisionEncoder는 일부 태스크에서 구글 SigLIP2를 상회한다.

  • 1

    Raon-Speech(9B)가 10B 이하 공개 음성 LLM 중 영어·한국어 글로벌 1위

  • 2

    Raon-SpeechChat은 국내 첫 Full-duplex 실시간 양방향 음성 모델

  • 3

    Raon-OpenTTS는 학습 데이터까지 전부 공개해 재현성 확보

  • 4

    Raon-VisionEncoder는 공개 데이터만으로 처음부터 학습해 SigLIP2 상회 성능

  • 크래프톤이 AI 모델 브랜드 'Raon(라온)' 을 론칭하고, 첫 모델 4종을 허깅페이스에 오픈소스로 공개했음
    • 라온 = '즐거움'을 뜻하는 순우리말. 영문명은 KRAFTON 철자에서 일부를 따옴
    • 데이터 수집모델 학습성능 평가까지 파운데이션 모델 전 과정을 자체 수행했다는 점을 강조
  • 공개된 4종은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder

Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

  • 텍스트 LLM을 확장해 음성 이해·생성까지 되는 음성 언어 모델
    • 파라미터 규모 90억(9B)
    • 10B 이하급 공개 음성 언어 모델 중 영어/한국어 모두 글로벌 1위 성능
  • 벤치마크 구성
    • 음성→텍스트, 텍스트→음성, 음성 기반 QA 등 7개 핵심 태스크 × 40개 벤치마크 종합 평가
    • 태스크별 평균 순위를 동일 비중 반영

중요

> 한국 기업이 10B 이하 체급에서 영어·한국어 동시 1위를 찍은 음성 LLM을 풀 오픈소스로 던진 건 드문 장면. 연구자·스타트업이 바로 가져다 파인튜닝 가능.

Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

  • Full-duplex(양방향 통신) 기술 적용 — 사용자와 모델이 대화 중 자유롭게 끼어들 수 있음
    • 국내 발표된 최초의 실시간 양방향 음성 모델
    • GPT-4o의 음성 모드가 떠오르는 대목

Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

  • 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델
    • 기존에 쓰기 어려웠던 일부 데이터는 크래프톤이 직접 수집·정제해 공개
    • 전체 학습 데이터도 같이 공개해 누구나 동일 환경에서 재현 가능
  • 재현성까지 챙긴 OSS TTS는 흔치 않은 구성

Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

  • 이미지를 AI가 이해 가능한 표현으로 바꾸는 비전 인코더
    • 언어 모델과 결합하면 시각 정보 처리 가능(멀티모달 기반)
    • 공개 데이터만 활용하고 사전 학습 모델 없이 처음부터 자체 학습
  • 성능 비교
    • 일부 시각 인식 태스크에서 구글 대표 비전 인코더 SigLIP2를 상회
    • 그 외 태스크에서도 SigLIP2 대비 90% 이상 성능 유지
  • '독자 AI 파운데이션 모델' 프로젝트에서도 활용 예정

의미와 배경

  • 이강욱 크래프톤 CAIO "이번 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"
    • 대규모 학습 데이터와 핵심 모델을 공유해 국내 AI 생태계 성장에 기여하겠다는 메시지
  • 게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합하는 사례
    • 게임 내 NPC 대화, 실시간 음성 인터랙션 같은 직접 응용처를 염두에 둔 전략으로 읽힘

기술 맥락

크래프톤이 왜 이걸 오픈소스로 풀었냐 하면, 허깅페이스 공개는 단순 홍보가 아니라 리크루팅·생태계 기여·표준화를 동시에 노리는 움직임이에요. AI 연구자 채용에서 "오픈소스 기여 이력 있는 조직"이라는 브랜딩이 꽤 결정적인 변수거든요.

음성 언어 모델(Speech Language Model)이 요즘 핫한 이유는 GPT-4o의 음성 모드 이후 "텍스트만 처리하는 LLM"에서 "음성 입출력을 네이티브로 처리하는 LLM"으로 축이 옮겨가고 있어서예요. 기존 TTS/STT 파이프라인을 따로 붙이는 방식은 지연이 크고 억양·감정 전달이 어려운데, 음성 LLM은 이걸 한 모델에서 처리해 훨씬 자연스러운 대화가 가능해져요.

Full-duplex(양방향 통신)는 전화선 용어에서 온 건데, 이쪽 맥락에선 모델이 응답 생성 중에도 사용자 입력을 계속 듣고 중간에 끼어들 수 있는 구조를 말해요. 기존 음성 에이전트는 '내가 말하고 → 모델이 말하고' 식의 턴제였는데, full-duplex는 실제 사람 대화처럼 겹쳐 말할 수 있어요. 게임 NPC가 "어어 그건..." 하고 끼어드는 장면이 가능해지는 거죠.

SigLIP2는 구글이 CLIP 스타일을 개선해 내놓은 비전-언어 정렬 모델이에요. 이미지를 언어 모델이 이해 가능한 벡터로 바꿔주는 역할을 하는데, 멀티모달 LLM의 '눈'에 해당하는 부품이거든요. 여기서 구글 모델을 일부 상회한다는 건 비전 기반 AI 스택에서도 경쟁력을 증명했다는 의미예요.

게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합한 사례. 한국 기업발 오픈소스 모델이 체급 내 글로벌 1위를 찍은 건 드문 장면이다.

댓글

댓글

댓글을 불러오는 중...

open-source

괄호가 싫어도 한 번은 봐야 할 작은 리스프, 재닛

글쓴이는 취미 프로젝트용 언어로 작은 리스프 계열 언어인 재닛을 몇 년째 쓰고 있고, 무료 책까지 쓸 정도로 꽂혔다. 핵심은 문법 장난이 아니라 작은 런타임, 네이티브 실행 파일 배포, 파싱 표현 문법, 셸 스크립팅, 매크로, 컴파일 타임 실행이 한데 묶인 실용성이다.

open-source

슈나이더일렉트릭, 제조 혁신용 오픈소스 프레임워크 ‘라이트하우스 OS’ 구축 참여

슈나이더일렉트릭이 세계경제포럼과 협력해 오픈소스 기반 제조 혁신 프레임워크인 라이트하우스 운영체제 구축에 참여한다. 파일럿 프로젝트는 많은데 전사 확산이 안 되는 제조업의 고질적인 문제를, 검증된 운영 원칙과 5단계 성숙도 모델로 풀겠다는 접근이다.

open-source

OECD 보고서가 본 오픈소스 AI의 경제 효과…성능 90%, 비용은 20%

OECD가 프랑스 G7 의장국 요청으로 작성한 보고서에서 AI 개방성이 경제성장과 기술 주권에 미치는 효과를 분석했다. 오픈웨이트 텍스트 모델은 폐쇄형 모델 대비 약 90% 성능을 내면서 가격은 20% 수준이고, AI 오픈소스 기여가 10% 늘면 GDP가 장기적으로 약 0.5% 증가한다는 추정도 제시됐다.

open-source

마이크로소프트, 오픈소스 AI 데이터 분석 플랫폼 Data Formulator 0.7 공개

마이크로소프트 리서치가 분산된 기업 데이터를 연결하고 분석·시각화하는 오픈소스 플랫폼 Data Formulator 0.7을 공개했어. 데이터 커넥터, 컨텍스트 기반 AI 에이전트, 데이터 스레드, 인터랙티브 캔버스를 통해 분석 워크플로우를 한 화면 안으로 묶는 게 핵심이야.

open-source

허깅페이스, 375만원대 오픈소스 휴머노이드 플랫폼 공개

허깅페이스가 약 2,500달러, 한화 약 375만원으로 직접 제작할 수 있는 오픈소스 2족보행 휴머노이드 플랫폼 르로봇 휴머노이드를 공개했다. 단순 로봇 모델이 아니라 하드웨어, 조립 문서, 런타임, 시뮬레이션, 데이터 수집, 정책 훈련, 실물 제어까지 포함한 풀스택 플랫폼이라는 점이 핵심이다.