본문으로 건너뛰기
피드

크래프톤, AI 모델 브랜드 ‘라온’ 출범하고 음성·비전 모델 4종 오픈소스로 공개

ai-ml 약 6분

크래프톤이 AI 모델 브랜드 ‘라온’을 공개하고 음성 LLM, 실시간 음성 대화 모델, TTS 모델, 비전 인코더 4종을 허깅페이스에 오픈소스로 올림. 특히 9B 규모 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 모두 1위 성능을 기록했다고 밝힘.

  • 1

    크래프톤이 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder를 공개함

  • 2

    Raon-Speech는 9B 파라미터 규모이며 7개 태스크와 40개 벤치마크 종합 평가를 기준으로 영어·한국어 모두 1위 성능을 기록했다고 밝힘

  • 3

    Raon-SpeechChat은 국내 최초 실시간 양방향 음성 모델로 소개됨

  • 4

    Raon-OpenTTS는 공개 음성 데이터 기반 학습과 전체 학습 데이터 공개를 강조함

  • 5

    Raon-VisionEncoder는 일부 시각 인식 태스크에서 구글 SigLIP2를 넘고, 다른 태스크에서도 90% 이상 성능을 보였다고 함

  • 크래프톤이 AI 모델 브랜드 ‘Raon’을 출범하고 모델 4종을 오픈소스로 공개함

    • 공개 위치는 글로벌 AI 모델 플랫폼 허깅페이스임
    • 모델 라인업은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder임
    • 이름은 ‘즐거움’을 뜻하는 순우리말 ‘라온’에서 따왔고, 영문명은 KRAFTON의 일부 철자를 활용했다고 함
  • 이번 공개의 메시지는 “게임사가 AI도 해요” 수준이 아니라, 파운데이션 모델 개발 전 과정을 자체 수행했다는 선언에 가까움

    • 크래프톤은 데이터 수집, 모델 학습, 성능 평가까지 직접 수행할 수 있는 역량을 입증했다고 밝힘
    • 앞으로 Raon을 중심으로 글로벌 AI 기술 경쟁력을 강화하겠다는 계획도 같이 냄

중요

> 가장 눈에 띄는 수치는 Raon-Speech임. 9B 파라미터 규모로, 10B 이하 공개 음성 언어 모델 중 영어와 한국어 모두 글로벌 1위 성능을 기록했다고 밝힘.

  • Raon-Speech는 텍스트 중심 언어 모델을 음성까지 확장한 모델임

    • 음성 이해와 음성 생성이 가능한 음성 언어 모델로 소개됨
    • 음성 텍스트 변환, 텍스트 음성 변환, 음성 기반 질의응답 등 7개 핵심 태스크를 평가함
    • 총 40개 벤치마크에서 태스크별 평균 순위를 동일 비중으로 반영한 결과라고 함
  • Raon-SpeechChat은 실시간 음성 대화 쪽을 겨냥함

    • 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 실시간 양방향 통신(Full-duplex)을 적용함
    • 크래프톤은 국내에서 발표된 최초의 실시간 양방향 음성 모델이라고 설명함
    • 음성 챗봇에서 답변이 끝날 때까지 기다리는 답답함을 줄이는 방향이라, 실제 UX 영향이 큼
  • Raon-OpenTTS는 공개성과 재현성을 강하게 밀고 있음

    • 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델임
    • 기존에 활용하기 어려웠던 일부 데이터는 직접 수집·정제해 공개했다고 함
    • 전체 학습 데이터도 공개해 누구나 같은 환경에서 학습을 재현할 수 있게 했다는 점이 포인트임
  • Raon-VisionEncoder는 멀티모달로 가기 위한 기반 부품임

    • 이미지를 AI가 이해 가능한 정보로 바꿔주는 비전 인코더임
    • 언어 모델과 결합하면 시각 정보를 처리하는 멀티모달 모델로 확장할 수 있음
    • 공개 데이터만 활용했고, 사전 학습된 모델을 쓰지 않고 처음부터 자체 학습했다고 밝힘
    • 일부 시각 인식 태스크에서는 구글 SigLIP2를 넘었고, 다른 태스크에서도 SigLIP2 대비 90% 이상 성능을 보였다고 함
  • 국내 개발자에게는 꽤 실용적인 공개임

    • 한국어 음성 이해·생성 모델을 직접 비교하고 튜닝해볼 수 있는 재료가 늘어남
    • 게임 NPC, 실시간 음성 인터페이스, 접근성 기능, 한국어 TTS 실험 같은 쪽에 바로 연결될 수 있음
    • 특히 학습 데이터 공개까지 포함된 TTS는 “모델만 던져줌”보다 연구·재현 관점에서 훨씬 쓸모가 큼

기술 맥락

  • 크래프톤이 공개한 4종은 각각 역할이 달라요. Raon-Speech는 음성을 이해하고 생성하는 중심 모델이고, Raon-SpeechChat은 실시간 대화 UX를, Raon-OpenTTS는 음성 합성을, Raon-VisionEncoder는 이미지 이해를 맡는 구조예요.

  • 9B 규모 Raon-Speech가 눈에 띄는 이유는 크기 대비 성능을 강조했기 때문이에요. 10B 이하 공개 모델이라는 조건에서 영어와 한국어 모두 1위라고 밝힌 건, 대형 폐쇄 모델이 아니어도 한국어 음성 태스크에서 경쟁할 수 있다는 메시지거든요.

  • Full-duplex가 중요한 건 음성 AI의 체감 품질이 모델 정확도만으로 결정되지 않아서예요. 사람이 말하는 도중 끼어들거나 흐름을 조정할 수 있어야 실제 대화처럼 느껴지고, 게임 NPC나 음성 비서에서는 이 차이가 꽤 크게 나요.

  • Raon-OpenTTS의 데이터 공개도 개발자 입장에선 큽니다. 모델 가중치만 있으면 결과를 써볼 수는 있지만, 학습 데이터와 조건이 공개돼야 성능을 검증하고 다시 학습해볼 수 있거든요.

  • Raon-VisionEncoder는 장기적으로 멀티모달 모델의 입구예요. 이미지를 벡터로 바꿔 언어 모델과 붙일 수 있어야 화면 이해, 캐릭터 인식, 게임 상황 해석 같은 작업으로 확장할 수 있어요.

국내 게임사가 음성·비전 파운데이션 모델을 오픈소스로 공개했다는 점이 꽤 큼. 게임 AI 얘기처럼 보이지만, 한국어 음성 인터랙션과 멀티모달 모델을 직접 테스트하려는 개발자에게는 바로 만져볼 수 있는 재료가 생긴 셈임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.