본문으로 건너뛰기
피드

크래프톤, AI 모델 브랜드 'Raon' 공개...음성 LLM 10B 체급 글로벌 1위

open-source 약 6분

크래프톤이 AI 모델 브랜드 Raon을 출범하고 음성 LLM, 실시간 양방향 음성 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 9B 파라미터 Raon-Speech는 10B 이하 공개 음성 언어 모델 중 영어·한국어 글로벌 1위를 기록했고, Raon-VisionEncoder는 일부 태스크에서 구글 SigLIP2를 상회한다.

  • 1

    Raon-Speech(9B)가 10B 이하 공개 음성 LLM 중 영어·한국어 글로벌 1위

  • 2

    Raon-SpeechChat은 국내 첫 Full-duplex 실시간 양방향 음성 모델

  • 3

    Raon-OpenTTS는 학습 데이터까지 전부 공개해 재현성 확보

  • 4

    Raon-VisionEncoder는 공개 데이터만으로 처음부터 학습해 SigLIP2 상회 성능

  • 크래프톤이 AI 모델 브랜드 'Raon(라온)' 을 론칭하고, 첫 모델 4종을 허깅페이스에 오픈소스로 공개했음
    • 라온 = '즐거움'을 뜻하는 순우리말. 영문명은 KRAFTON 철자에서 일부를 따옴
    • 데이터 수집모델 학습성능 평가까지 파운데이션 모델 전 과정을 자체 수행했다는 점을 강조
  • 공개된 4종은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder

Raon-Speech — 9B 음성 LLM, 동일 체급 글로벌 1위

  • 텍스트 LLM을 확장해 음성 이해·생성까지 되는 음성 언어 모델
    • 파라미터 규모 90억(9B)
    • 10B 이하급 공개 음성 언어 모델 중 영어/한국어 모두 글로벌 1위 성능
  • 벤치마크 구성
    • 음성→텍스트, 텍스트→음성, 음성 기반 QA 등 7개 핵심 태스크 × 40개 벤치마크 종합 평가
    • 태스크별 평균 순위를 동일 비중 반영

중요

> 한국 기업이 10B 이하 체급에서 영어·한국어 동시 1위를 찍은 음성 LLM을 풀 오픈소스로 던진 건 드문 장면. 연구자·스타트업이 바로 가져다 파인튜닝 가능.

Raon-SpeechChat — 국내 첫 실시간 양방향 음성 모델

  • Full-duplex(양방향 통신) 기술 적용 — 사용자와 모델이 대화 중 자유롭게 끼어들 수 있음
    • 국내 발표된 최초의 실시간 양방향 음성 모델
    • GPT-4o의 음성 모드가 떠오르는 대목

Raon-OpenTTS — 학습 데이터까지 전부 공개한 TTS

  • 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델
    • 기존에 쓰기 어려웠던 일부 데이터는 크래프톤이 직접 수집·정제해 공개
    • 전체 학습 데이터도 같이 공개해 누구나 동일 환경에서 재현 가능
  • 재현성까지 챙긴 OSS TTS는 흔치 않은 구성

Raon-VisionEncoder — 구글 SigLIP2를 일부 상회

  • 이미지를 AI가 이해 가능한 표현으로 바꾸는 비전 인코더
    • 언어 모델과 결합하면 시각 정보 처리 가능(멀티모달 기반)
    • 공개 데이터만 활용하고 사전 학습 모델 없이 처음부터 자체 학습
  • 성능 비교
    • 일부 시각 인식 태스크에서 구글 대표 비전 인코더 SigLIP2를 상회
    • 그 외 태스크에서도 SigLIP2 대비 90% 이상 성능 유지
  • '독자 AI 파운데이션 모델' 프로젝트에서도 활용 예정

의미와 배경

  • 이강욱 크래프톤 CAIO "이번 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"
    • 대규모 학습 데이터와 핵심 모델을 공유해 국내 AI 생태계 성장에 기여하겠다는 메시지
  • 게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합하는 사례
    • 게임 내 NPC 대화, 실시간 음성 인터랙션 같은 직접 응용처를 염두에 둔 전략으로 읽힘

기술 맥락

크래프톤이 왜 이걸 오픈소스로 풀었냐 하면, 허깅페이스 공개는 단순 홍보가 아니라 리크루팅·생태계 기여·표준화를 동시에 노리는 움직임이에요. AI 연구자 채용에서 "오픈소스 기여 이력 있는 조직"이라는 브랜딩이 꽤 결정적인 변수거든요.

음성 언어 모델(Speech Language Model)이 요즘 핫한 이유는 GPT-4o의 음성 모드 이후 "텍스트만 처리하는 LLM"에서 "음성 입출력을 네이티브로 처리하는 LLM"으로 축이 옮겨가고 있어서예요. 기존 TTS/STT 파이프라인을 따로 붙이는 방식은 지연이 크고 억양·감정 전달이 어려운데, 음성 LLM은 이걸 한 모델에서 처리해 훨씬 자연스러운 대화가 가능해져요.

Full-duplex(양방향 통신)는 전화선 용어에서 온 건데, 이쪽 맥락에선 모델이 응답 생성 중에도 사용자 입력을 계속 듣고 중간에 끼어들 수 있는 구조를 말해요. 기존 음성 에이전트는 '내가 말하고 → 모델이 말하고' 식의 턴제였는데, full-duplex는 실제 사람 대화처럼 겹쳐 말할 수 있어요. 게임 NPC가 "어어 그건..." 하고 끼어드는 장면이 가능해지는 거죠.

SigLIP2는 구글이 CLIP 스타일을 개선해 내놓은 비전-언어 정렬 모델이에요. 이미지를 언어 모델이 이해 가능한 벡터로 바꿔주는 역할을 하는데, 멀티모달 LLM의 '눈'에 해당하는 부품이거든요. 여기서 구글 모델을 일부 상회한다는 건 비전 기반 AI 스택에서도 경쟁력을 증명했다는 의미예요.

게임사가 자체 파운데이션 모델 팀을 꾸려 음성·비전까지 수직 통합한 사례. 한국 기업발 오픈소스 모델이 체급 내 글로벌 1위를 찍은 건 드문 장면이다.

댓글

댓글

댓글을 불러오는 중...

open-source

오픈서치, 엔터프라이즈용 18개월 LTS 프로그램 공개

오픈서치 소프트웨어 재단이 주요 버전별로 최소 18개월 지원하는 LTS 프로그램을 발표했다. 첫 대상은 2.19와 3.6이며 SBOM 구축, 60일 이내 중·고위험 취약점 대응, 인증 벤더 모델을 통해 엔터프라이즈 운영 리스크를 낮추는 데 초점을 맞췄다. 첫 공인 LTS 제공사는 빅데이터 부티크, 엘리아트라, 리졸브 테크놀로지 세 곳이다.

open-source

모질라, 오픈소스 기업용 AI 클라이언트 '썬더볼트' 공개 — 자체 호스팅·로컬 우선 전략

모질라가 기업용 AI 프론트엔드 클라이언트 '썬더볼트'를 공개함. Haystack 기반으로 맞춤형 AI 파이프라인 구축이 가능하고, 로컬 SQLite·종단간 암호화·ACP 호환 에이전트를 지원해 데이터 주권이 중요한 기업 환경을 겨냥.

open-source

jj(Jujutsu) — git보다 단순하면서 더 강력하다는 새 버전 관리 도구

Steve Klabnik이 분산 버전 관리 도구 jj(Jujutsu) 튜토리얼을 공개함. git과 Mercurial의 장점을 결합해 더 적은 명령어로 더 강력한 워크플로우를 제공한다는 게 핵심 주장이고, git 저장소와 호환되어 기존 프로젝트에서 바로 시도해볼 수 있음.

open-source

프랑스가 윈도우 버리고 리눅스로 간다 - 한국 공공기관도 배울 점 있음

프랑스 정부가 디지털 주권 확보를 위해 마이크로소프트 윈도우에서 리눅스 기반 시스템으로 대규모 전환을 추진 중임. 보안 강화, 비용 절감, 오픈소스 생태계 활성화를 목표로 하며, 한국도 유사한 과제를 안고 있어 시사점이 큼.

open-source

미국이 OCUDU로 기지국 CU/DU를 오픈소스화한다 - 6G 오픈랜 판도 바뀔 듯

미국 국방부가 OCUDU 프로젝트로 기지국의 CU·DU를 오픈소스 소프트웨어로 구현하는 데 나섰음. 리눅스 재단 산하에 에코시스템 재단을 출범시키고 AT&T, 에릭슨, 엔비디아 등 38개 기관이 참여하면서 통신 인프라의 소프트웨어화가 본격 가속되는 흐름임.