본문으로 건너뛰기
피드

크래프톤, AI 모델 브랜드 ‘라온’ 출범하고 음성·비전 모델 4종 오픈소스로 공개

ai-ml 약 6분
vote
0
댓글
북마크

크래프톤이 AI 모델 브랜드 ‘라온’을 공개하고 음성 LLM, 실시간 음성 대화 모델, TTS 모델, 비전 인코더 4종을 허깅페이스에 오픈소스로 올림. 특히 9B 규모 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 모두 1위 성능을 기록했다고 밝힘.

  • 1

    크래프톤이 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder를 공개함

  • 2

    Raon-Speech는 9B 파라미터 규모이며 7개 태스크와 40개 벤치마크 종합 평가를 기준으로 영어·한국어 모두 1위 성능을 기록했다고 밝힘

  • 3

    Raon-SpeechChat은 국내 최초 실시간 양방향 음성 모델로 소개됨

  • 4

    Raon-OpenTTS는 공개 음성 데이터 기반 학습과 전체 학습 데이터 공개를 강조함

  • 5

    Raon-VisionEncoder는 일부 시각 인식 태스크에서 구글 SigLIP2를 넘고, 다른 태스크에서도 90% 이상 성능을 보였다고 함

  • 크래프톤이 AI 모델 브랜드 ‘Raon’을 출범하고 모델 4종을 오픈소스로 공개함

    • 공개 위치는 글로벌 AI 모델 플랫폼 허깅페이스임
    • 모델 라인업은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder임
    • 이름은 ‘즐거움’을 뜻하는 순우리말 ‘라온’에서 따왔고, 영문명은 KRAFTON의 일부 철자를 활용했다고 함
  • 이번 공개의 메시지는 “게임사가 AI도 해요” 수준이 아니라, 파운데이션 모델 개발 전 과정을 자체 수행했다는 선언에 가까움

    • 크래프톤은 데이터 수집, 모델 학습, 성능 평가까지 직접 수행할 수 있는 역량을 입증했다고 밝힘
    • 앞으로 Raon을 중심으로 글로벌 AI 기술 경쟁력을 강화하겠다는 계획도 같이 냄

중요

> 가장 눈에 띄는 수치는 Raon-Speech임. 9B 파라미터 규모로, 10B 이하 공개 음성 언어 모델 중 영어와 한국어 모두 글로벌 1위 성능을 기록했다고 밝힘.

  • Raon-Speech는 텍스트 중심 언어 모델을 음성까지 확장한 모델임

    • 음성 이해와 음성 생성이 가능한 음성 언어 모델로 소개됨
    • 음성 텍스트 변환, 텍스트 음성 변환, 음성 기반 질의응답 등 7개 핵심 태스크를 평가함
    • 총 40개 벤치마크에서 태스크별 평균 순위를 동일 비중으로 반영한 결과라고 함
  • Raon-SpeechChat은 실시간 음성 대화 쪽을 겨냥함

    • 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 실시간 양방향 통신(Full-duplex)을 적용함
    • 크래프톤은 국내에서 발표된 최초의 실시간 양방향 음성 모델이라고 설명함
    • 음성 챗봇에서 답변이 끝날 때까지 기다리는 답답함을 줄이는 방향이라, 실제 UX 영향이 큼
  • Raon-OpenTTS는 공개성과 재현성을 강하게 밀고 있음

    • 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델임
    • 기존에 활용하기 어려웠던 일부 데이터는 직접 수집·정제해 공개했다고 함
    • 전체 학습 데이터도 공개해 누구나 같은 환경에서 학습을 재현할 수 있게 했다는 점이 포인트임
  • Raon-VisionEncoder는 멀티모달로 가기 위한 기반 부품임

    • 이미지를 AI가 이해 가능한 정보로 바꿔주는 비전 인코더임
    • 언어 모델과 결합하면 시각 정보를 처리하는 멀티모달 모델로 확장할 수 있음
    • 공개 데이터만 활용했고, 사전 학습된 모델을 쓰지 않고 처음부터 자체 학습했다고 밝힘
    • 일부 시각 인식 태스크에서는 구글 SigLIP2를 넘었고, 다른 태스크에서도 SigLIP2 대비 90% 이상 성능을 보였다고 함
  • 국내 개발자에게는 꽤 실용적인 공개임

    • 한국어 음성 이해·생성 모델을 직접 비교하고 튜닝해볼 수 있는 재료가 늘어남
    • 게임 NPC, 실시간 음성 인터페이스, 접근성 기능, 한국어 TTS 실험 같은 쪽에 바로 연결될 수 있음
    • 특히 학습 데이터 공개까지 포함된 TTS는 “모델만 던져줌”보다 연구·재현 관점에서 훨씬 쓸모가 큼

기술 맥락

  • 크래프톤이 공개한 4종은 각각 역할이 달라요. Raon-Speech는 음성을 이해하고 생성하는 중심 모델이고, Raon-SpeechChat은 실시간 대화 UX를, Raon-OpenTTS는 음성 합성을, Raon-VisionEncoder는 이미지 이해를 맡는 구조예요.

  • 9B 규모 Raon-Speech가 눈에 띄는 이유는 크기 대비 성능을 강조했기 때문이에요. 10B 이하 공개 모델이라는 조건에서 영어와 한국어 모두 1위라고 밝힌 건, 대형 폐쇄 모델이 아니어도 한국어 음성 태스크에서 경쟁할 수 있다는 메시지거든요.

  • Full-duplex가 중요한 건 음성 AI의 체감 품질이 모델 정확도만으로 결정되지 않아서예요. 사람이 말하는 도중 끼어들거나 흐름을 조정할 수 있어야 실제 대화처럼 느껴지고, 게임 NPC나 음성 비서에서는 이 차이가 꽤 크게 나요.

  • Raon-OpenTTS의 데이터 공개도 개발자 입장에선 큽니다. 모델 가중치만 있으면 결과를 써볼 수는 있지만, 학습 데이터와 조건이 공개돼야 성능을 검증하고 다시 학습해볼 수 있거든요.

  • Raon-VisionEncoder는 장기적으로 멀티모달 모델의 입구예요. 이미지를 벡터로 바꿔 언어 모델과 붙일 수 있어야 화면 이해, 캐릭터 인식, 게임 상황 해석 같은 작업으로 확장할 수 있어요.

국내 게임사가 음성·비전 파운데이션 모델을 오픈소스로 공개했다는 점이 꽤 큼. 게임 AI 얘기처럼 보이지만, 한국어 음성 인터랙션과 멀티모달 모델을 직접 테스트하려는 개발자에게는 바로 만져볼 수 있는 재료가 생긴 셈임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개

오픈AI가 브로드컴과 함께 만든 첫 자체 추론 프로세서 ‘할라페뇨’를 공개했다. 아직 테스트 단계지만, 실시간 코딩 모델 같은 추론 워크로드에서 기존 최고 수준 대안보다 전력 대비 성능이 크게 좋다는 초기 결과를 내세웠다.

ai-ml

가트너 “네오클라우드, 2030년 AI 클라우드 시장 20% 먹는다”

생성형 AI 확산으로 GPU 기반 고성능 컴퓨팅 수요가 폭증하면서 AI 전용 클라우드 사업자인 네오클라우드가 커지고 있다는 분석이 나왔어. 가트너는 2030년 약 2,670억 달러 규모 AI 클라우드 시장에서 네오클라우드가 20%를 차지할 수 있다고 봤어. GPU 확보, 가격 경쟁력, 데이터 주권 대응이 핵심 포인트야.

ai-ml

스페이스X, 오픈소스 AI 스타트업에 초대형 컴퓨팅 파워 판다

리플렉션 AI가 스페이스X의 대형 데이터센터 인프라를 쓰기 위해 2029년까지 최대 63억달러 규모 계약을 맺었다는 내용이다. 월 1억5000만달러를 내고 엔비디아 GB300 기반 컴퓨팅 자원을 확보하는 구조이며, 스페이스X는 남는 AI 인프라를 외부 고객에게 파는 플랫폼 사업으로 확장하려는 흐름을 보인다. 오픈소스 AI 모델을 내세우는 리플렉션 AI가 정부·안보 시장에서 빠르게 커지고 있다는 점도 포인트다.

ai-ml

AI가 청소년의 ‘생각 훈련’을 건너뛰게 만든다는 경고

이 글은 생성형 AI가 청소년과 주니어에게 편리한 도구를 넘어 사고력 발달을 약화시킬 수 있다는 우려를 다뤄. 핵심은 AI 사용 자체가 문제라기보다, AI가 단일한 관계와 정보 통로가 되고 글쓰기·판단·고민의 과정을 대신해버릴 때 인지 훈련 기회가 사라진다는 점이야.

ai-ml

성남시, AI로 고독사 위험과 고령자 주차 문제를 같이 실증한다

성남시니어산업혁신센터가 AI 돌봄 자동화 플랫폼과 AI 스마트 주차관리 시스템의 실증기관으로 선정됐어. 각각 14억2500만 원, 30억 원 규모 사업이고, 고령자 돌봄과 교통약자 주차 편의라는 생활밀착형 문제를 AI로 풀어보겠다는 내용이야.