본문으로 건너뛰기
피드

제주어 번역 LLM, 88M 초경량 오픈소스로 공개

open-source 약 4분
vote
0
댓글
북마크

피씨엔이 제주어와 표준어를 양방향으로 번역하는 AI 번역 거대언어모델을 개발해 허깅페이스에 공개했다. 8800만 파라미터, 178MB 크기의 디코더 전용 모델이며, Apache 2.0 라이선스로 누구나 사용할 수 있게 풀렸다.

  • 1

    제주어·표준어 양방향 번역 LLM이 허깅페이스에 무료 공개됨

  • 2

    모델은 약 8800만 파라미터, 전체 용량 178MB의 초경량 구조

  • 3

    데이터 전처리부터 모델 레이어 설계, 사전학습까지 프롬 스크래치 방식으로 구축

  • 4

    Apache 2.0 라이선스로 공개돼 연구·서비스 활용 가능성이 열려 있음

  • 피씨엔이 제주어와 표준어를 서로 번역하는 AI 번역 거대언어모델(LLM)을 공개함

    • 대상은 소멸 위기에 처한 제주 방언, 즉 제주어
    • 공개 위치는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)
    • 무료 공개이고, 라이선스는 Apache 2.0임
  • 이 모델은 ‘제주어 보존’이라는 공익 목적을 꽤 전면에 내세움

    • 피씨엔은 제주어가 일상에서 점점 사라지는 현실을 AI 기술로 보완하려 했다고 설명함
    • 영어 같은 주류 언어뿐 아니라 지역 방언, 로우 리소스 언어에도 AI 언어 모델의 혜택을 넓힐 수 있다는 사례로 보고 있음
  • 스펙은 작지만 의도가 명확함. 약 8800만(88M) 파라미터, 전체 용량 178MB짜리 초경량 모델임

    • 디코더 전용 아키텍처로 설계됨
    • 고성능 서버가 아니라 일반 소비자용 그래픽처리장치(GPU)나 온디바이스 환경에서도 구동될 수 있도록 접근성을 높였다고 밝힘
    • ‘일단 크게 만들고 클라우드에서 돌리자’가 아니라, 실제로 여러 환경에서 써볼 수 있게 작게 만든 쪽에 가까움

중요

> 88M 파라미터와 178MB라는 숫자가 핵심임. 제주어 같은 로우 리소스 언어 모델은 연구용 데모보다, 가볍게 배포되고 반복 개선될 수 있는 구조가 훨씬 중요함.

  • 개발 방식도 단순 파인튜닝 홍보와는 결이 다름

    • 피씨엔은 데이터 전처리부터 모델 레이어 설계, 사전학습까지 직접 쌓아 올린 ‘프롬 스크래치’ 방식이라고 설명함
    • 학습 데이터는 AI허브를 비롯해 외부에 공개된 다양한 제주어 데이터를 활용함
  • 오픈소스로 풀린 덕분에 활용 가능성도 꽤 넓어짐

    • 연구자는 제주어 자연어처리(NLP) 실험의 출발점으로 쓸 수 있음
    • 지자체나 교육 기관은 제주어 학습, 문화 보존, 번역 보조 서비스에 붙여볼 수 있음
    • 기업 입장에서는 작은 언어 모델을 특정 도메인·지역 언어에 맞춰 만드는 레퍼런스로 볼 수 있음
  • 물론 관건은 공개 이후임

    • 로우 리소스 언어 모델은 데이터 품질과 평가셋이 부족하면 성능 검증이 흐릿해지기 쉬움
    • 실제 제주어 사용자들이 번역 품질을 어떻게 평가하고, 커뮤니티 피드백이 모델 개선으로 이어지는지가 다음 단계가 될 가능성이 큼

기술 맥락

  • 이 모델에서 중요한 선택은 ‘작게 만들었다’는 점이에요. 제주어 번역처럼 사용층이 넓지 않은 모델은 초대형 인프라를 전제로 하면 실제 활용처가 확 줄어들거든요.

  • 프롬 스크래치 방식을 강조한 이유도 있어요. 기존 대형 모델을 살짝 손보는 방식보다 비용과 난도는 높지만, 데이터 전처리와 모델 구조를 언어 특성에 맞춰 잡을 수 있다는 장점이 있어요.

  • Apache 2.0으로 공개한 것도 꽤 실용적인 결정이에요. 라이선스가 빡빡하면 연구는 가능해도 서비스 적용이 애매해지는데, 이 경우에는 교육 앱이나 공공 서비스에 붙여볼 여지가 더 커져요.

  • 제주어 같은 로우 리소스 언어에서는 모델 성능만큼 생태계가 중요해요. 허깅페이스에 공개하면 외부 연구자와 개발자가 테스트하고 개선점을 남길 수 있어서, 사라지는 언어를 데이터와 도구로 붙잡는 기반이 생겨요.

대부분의 언어 AI가 영어와 대형 언어권 중심으로 굴러가는 상황에서, 제주어 같은 로우 리소스 언어를 위한 모델이 오픈소스로 나온 건 꽤 의미 있음. 모델 크기도 작아서 ‘보존’뿐 아니라 실제 배포 가능성을 염두에 둔 선택으로 보임.

댓글

댓글

댓글을 불러오는 중...

open-source

차세대 데이터 파일 포맷 F3, 디코더를 Wasm으로 파일 안에 넣자는 실험

F3는 Parquet, ORC 같은 기존 컬럼형 파일 포맷의 한계를 줄이기 위해 제안된 오픈소스 연구 프로토타입이다. 핵심 아이디어는 데이터와 메타데이터뿐 아니라 WebAssembly(Wasm) 디코더까지 파일에 함께 넣어, 새 인코딩 방식이 나와도 플랫폼 호환성을 유지하자는 것이다.

open-source

에코백스, 1,134만원짜리 오픈소스 가정용 로봇 ‘빠졔’ 판매 시작

중국 청소 로봇 기업 에코백스가 첫 오픈소스 로봇 ‘빠졔’를 정식 판매하기 시작했음. 가정용 로봇을 개발자가 직접 조율하고 프로그래밍하고 2차 개발할 수 있게 만든 플랫폼이고, 가격은 4만9990위안, 약 1,134만원 수준임.

open-source

BMW·폭스바겐·스텔란티스, 자동차 소프트웨어 오픈소스 동맹 키운다

BMW, 폭스바겐그룹, 스텔란티스 등 유럽 완성차 업체들이 소프트웨어 정의 자동차(SDV) 경쟁력 강화를 위해 오픈소스 공동 개발에 나서고 있다. 독일자동차산업협회 주도 프로젝트에는 완성차, 부품사, 반도체 기업 등 30개 이상 기업이 참여하며 차량 OS, 미들웨어, 통신 소프트웨어 같은 공통 영역을 함께 만든다. 기대 효과는 개발·유지 비용 최대 40% 절감, 차량 개발 기간 최대 30% 단축이다.

open-source

AI 시대 오픈소스, ‘공개됐으니 막 써도 됨’은 진짜 위험한 착각

생성형 AI 서비스가 오픈소스 코드, 모델, 데이터셋, 외부 API를 섞어 쓰면서 라이선스와 이용 조건 관리가 훨씬 복잡해졌다는 내용이다. 공개된 기술이라도 저작권과 사용 조건은 남아 있고, 기업은 제품 안에 무엇이 들어갔는지 지속적으로 추적해야 한다.

open-source

에코백스, 1,134만원짜리 오픈소스 가정용 로봇 ‘빠졔’ 출시

중국 청소 로봇 기업 에코백스가 첫 오픈소스 로봇 ‘빠졔’를 판매하기 시작했다. 개발자가 로봇의 동작, 조작, 환경 인식 기능을 기반으로 임바디드 인텔리전스 애플리케이션을 만들고 상용화할 수 있게 하겠다는 전략이다.