본문으로 건너뛰기
피드

크래프톤, 자체 AI 브랜드 'Raon' 공개 — 음성 LLM·실시간 대화·TTS·비전 인코더 4종 오픈소스

ai-ml 약 5분

크래프톤이 AI 모델 브랜드 Raon을 출범하고 9B 음성 LLM, 국내 최초 실시간 양방향 음성 대화 모델, TTS, 비전 인코더 4종을 허깅페이스에 오픈소스로 공개했다. 음성 LLM은 10B 이하급에서 영어·한국어 모두 글로벌 1위 성능, 비전 인코더는 구글 SigLIP2를 일부 태스크에서 상회한다.

  • 1

    Raon-Speech 9B — 10B 이하급 공개 음성 언어 모델 중 영어·한국어 글로벌 1위 (40개 벤치마크 기준)

  • 2

    Raon-SpeechChat — 국내 최초 Full-duplex 실시간 양방향 음성 대화 모델

  • 3

    Raon-OpenTTS — 학습 데이터까지 전부 공개해 재현 가능성 확보

  • 4

    Raon-VisionEncoder — 처음부터 자체 학습, 일부 태스크에서 구글 SigLIP2 상회

  • 5

    모든 모델은 허깅페이스에 오픈소스로 공개

  • 크래프톤이 AI 모델 브랜드 'Raon(라온)'을 론칭하고 첫 모델 4종을 허깅페이스에 오픈소스로 공개
    • Raon은 순우리말 '즐거움'에서 따온 이름 — 영문명은 KRAFTON 철자 활용
    • 데이터 수집부터 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체 수행했다는 점을 강조

공개된 모델 4종

  • Raon-Speech — 9B 파라미터 음성 언어 모델
    • 텍스트 중심 LLM을 확장해 음성 이해·생성 지원
    • 10B 이하급 공개 음성 언어 모델 중 영어·한국어 모두 글로벌 1위 성능
    • 음성-텍스트 변환, 텍스트-음성 변환, 음성 기반 Q&A 등 7개 핵심 태스크, 40개 벤치마크 평가 기준
  • Raon-SpeechChat — 실시간 양방향(Full-duplex) 음성 대화 모델
    • 사용자와 모델이 대화 중 자유롭게 끼어들 수 있는 구조
    • 국내 최초 실시간 양방향 음성 모델
  • Raon-OpenTTS — 공개 데이터로만 학습된 TTS 모델
    • 직접 수집·정제한 데이터까지 전부 공개 — 누구나 동일 환경에서 학습 재현 가능
  • Raon-VisionEncoder — 처음부터 자체 학습한 비전 인코더
    • 사전 학습 모델 없이 공개 데이터만으로 학습
    • 일부 시각 인식 태스크에서 구글 SigLIP2 상회, 나머지도 SigLIP2 대비 90% 이상 성능
    • 크래프톤의 '독자 AI 파운데이션 모델' 프로젝트에 활용 예정

중요

> 게임사가 자체 파운데이션 모델을 풀스택으로 만든 건 이례적. 특히 Full-duplex 실시간 음성 대화 모델은 국내 최초 공개다.

  • 이강욱 크래프톤 CAIO — "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 국내 AI 생태계 성장에 기여하기를 기대"
  • 게임 본연의 즐거움을 AI로 창출한다는 철학 — NPC 음성 대화나 실시간 보이스 상호작용에 활용될 가능성이 큼

기술 맥락

Full-duplex 음성 모델이 왜 어려운지 알면 Raon-SpeechChat의 의미가 보여요. 기존 음성 비서는 사용자가 말을 끝내야 답을 시작하는 half-duplex 구조예요. "Hey Siri" 하고 멈춰야 반응하는 그거요. 근데 사람 대화는 겹쳐 말하고, 끼어들고, 맞장구 치잖아요. Full-duplex는 이걸 가능하게 하는 건데, 입력·출력 스트림을 동시에 처리하면서 턴테이킹을 실시간으로 판단해야 해서 모델 아키텍처 자체가 달라요. OpenAI의 Realtime API나 구글의 Gemini Live가 이 방향이고요.

크래프톤이 왜 이걸 먼저 밀었는지도 읽어볼 만해요. 게임 NPC와 플레이어가 진짜 대화처럼 상호작용하려면 이 기술이 필수거든요. "야 잠깐만"이라고 플레이어가 끼어들었을 때 NPC가 자연스럽게 멈추고 반응해야 몰입이 깨지지 않아요.

Raon-OpenTTS가 학습 데이터까지 전부 공개한다는 점도 눈여겨볼 만해요. TTS 업계는 라이선스 문제로 인해 대부분 비공개 데이터로 학습해서 재현이 불가능해요. 크래프톤이 수집·정제까지 한 데이터를 전부 공개한다는 건 연구 재현성 측면에서 의미가 커요. SigLIP2 대비 성능도 마찬가지로, 구글 급의 비전 인코더를 처음부터 자체 학습했다는 건 기술 내재화의 상징이에요.

게임사가 풀스택으로 파운데이션 모델을 만든 건 이례적이며, Full-duplex 음성 모델은 NPC 실시간 상호작용을 노린 게임 특화 기술 투자로 읽힌다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

리벨리온 '리벨100', gpt-oss·미니맥스에서 H200 대비 전성비 3배 기록

리벨리온이 2세대 AI 반도체 리벨 100으로 gpt-oss-120b와 MiniMax 등 최신 오픈소스 추론 모델을 구동해 엔비디아 H200 대비 3배 높은 전성비를 기록했다고 공개했다. UCIe 기반 칩렛 구조에 HBM3E 144GB를 탑재했으며, TPOT 3.2ms로 체감 응답 속도에서도 경쟁력을 입증했다.

ai-ml

월 20달러 무제한 AI의 종말 — "전기세처럼 쓴 만큼 내는 시대"

오픈AI, 앤트로픽, 구글 등 주요 AI 기업이 정액 구독 모델 대신 사용량 기반 과금 체계로 이동 중이다. 추론형 모델 연산 비용 급증과 2026년 140억 달러 적자 전망 때문이다. 앤트로픽은 이미 클로드 구독자의 타사 AI 사용에 추가 요금을 부과하기 시작했다.

ai-ml

ETRI, 영상 VFX를 AI로 자동 생성하는 미디어 기술 3종 공개

ETRI가 NAB 2026에서 멀티모달 프롬프트로 VFX를 자동 생성하는 기술, 2D 영상을 USD 기반 3D 에셋으로 변환하는 기술, AI UI·UX 분석 에이전트 등 3종을 공개했다. 기존 영상 편집툴에 플러그인으로 붙는 형태라 현장 투입이 빠르다는 점이 특징이다.

ai-ml

Godot 관리자 비명 "AI가 생성한 쓰레기 PR 리뷰에 기진맥진"

생성형 AI 코드가 쏟아지면서 고도 엔진 수석 관리자는 '검토·거절 과정이 소모적'이라 토로했고, 2026 상반기 Game Developer 설문에선 생성형 AI 도입률이 36%에서 29%로 반전, 개발자 47%가 AI가 게임 품질을 저하시킬 것이라 응답했다. 감지가 어려운 '조용한 실패'가 장기 프로젝트 안정성을 위협한다는 지적이 핵심이다.

ai-ml

칼텍, 세포 분할 파운데이션 모델 'CellSAM' 오픈소스 공개

칼텍 연구진이 다양한 생물학 이미지에서 세포를 자동 식별하는 범용 파운데이션 모델 CellSAM을 네이처 메서즈에 공개했다. 단일 모델로 종양세포·박테리아·면역세포를 모두 커버하고 세포 간 상호작용과 공간 구조까지 분석 가능하다. 연구자 누구나 무료로 쓸 수 있게 오픈소스로 풀었다.