---
title: "제주어 번역 LLM, 88M 초경량 오픈소스로 공개"
published: 2026-05-08T05:05:03.704Z
canonical: https://jeff.news/article/2490
---
# 제주어 번역 LLM, 88M 초경량 오픈소스로 공개

피씨엔이 제주어와 표준어를 양방향으로 번역하는 AI 번역 거대언어모델을 개발해 허깅페이스에 공개했다. 8800만 파라미터, 178MB 크기의 디코더 전용 모델이며, Apache 2.0 라이선스로 누구나 사용할 수 있게 풀렸다.

- 피씨엔이 제주어와 표준어를 서로 번역하는 AI 번역 거대언어모델(LLM)을 공개함
  - 대상은 소멸 위기에 처한 제주 방언, 즉 제주어
  - 공개 위치는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)
  - 무료 공개이고, 라이선스는 Apache 2.0임

- 이 모델은 ‘제주어 보존’이라는 공익 목적을 꽤 전면에 내세움
  - 피씨엔은 제주어가 일상에서 점점 사라지는 현실을 AI 기술로 보완하려 했다고 설명함
  - 영어 같은 주류 언어뿐 아니라 지역 방언, 로우 리소스 언어에도 AI 언어 모델의 혜택을 넓힐 수 있다는 사례로 보고 있음

- 스펙은 작지만 의도가 명확함. 약 8800만(88M) 파라미터, 전체 용량 178MB짜리 초경량 모델임
  - 디코더 전용 아키텍처로 설계됨
  - 고성능 서버가 아니라 일반 소비자용 그래픽처리장치(GPU)나 온디바이스 환경에서도 구동될 수 있도록 접근성을 높였다고 밝힘
  - ‘일단 크게 만들고 클라우드에서 돌리자’가 아니라, 실제로 여러 환경에서 써볼 수 있게 작게 만든 쪽에 가까움

> [!IMPORTANT]
> 88M 파라미터와 178MB라는 숫자가 핵심임. 제주어 같은 로우 리소스 언어 모델은 연구용 데모보다, 가볍게 배포되고 반복 개선될 수 있는 구조가 훨씬 중요함.

- 개발 방식도 단순 파인튜닝 홍보와는 결이 다름
  - 피씨엔은 데이터 전처리부터 모델 레이어 설계, 사전학습까지 직접 쌓아 올린 ‘프롬 스크래치’ 방식이라고 설명함
  - 학습 데이터는 AI허브를 비롯해 외부에 공개된 다양한 제주어 데이터를 활용함

- 오픈소스로 풀린 덕분에 활용 가능성도 꽤 넓어짐
  - 연구자는 제주어 자연어처리(NLP) 실험의 출발점으로 쓸 수 있음
  - 지자체나 교육 기관은 제주어 학습, 문화 보존, 번역 보조 서비스에 붙여볼 수 있음
  - 기업 입장에서는 작은 언어 모델을 특정 도메인·지역 언어에 맞춰 만드는 레퍼런스로 볼 수 있음

- 물론 관건은 공개 이후임
  - 로우 리소스 언어 모델은 데이터 품질과 평가셋이 부족하면 성능 검증이 흐릿해지기 쉬움
  - 실제 제주어 사용자들이 번역 품질을 어떻게 평가하고, 커뮤니티 피드백이 모델 개선으로 이어지는지가 다음 단계가 될 가능성이 큼

---

## 기술 맥락

- 이 모델에서 중요한 선택은 ‘작게 만들었다’는 점이에요. 제주어 번역처럼 사용층이 넓지 않은 모델은 초대형 인프라를 전제로 하면 실제 활용처가 확 줄어들거든요.

- 프롬 스크래치 방식을 강조한 이유도 있어요. 기존 대형 모델을 살짝 손보는 방식보다 비용과 난도는 높지만, 데이터 전처리와 모델 구조를 언어 특성에 맞춰 잡을 수 있다는 장점이 있어요.

- Apache 2.0으로 공개한 것도 꽤 실용적인 결정이에요. 라이선스가 빡빡하면 연구는 가능해도 서비스 적용이 애매해지는데, 이 경우에는 교육 앱이나 공공 서비스에 붙여볼 여지가 더 커져요.

- 제주어 같은 로우 리소스 언어에서는 모델 성능만큼 생태계가 중요해요. 허깅페이스에 공개하면 외부 연구자와 개발자가 테스트하고 개선점을 남길 수 있어서, 사라지는 언어를 데이터와 도구로 붙잡는 기반이 생겨요.

## 핵심 포인트

- 제주어·표준어 양방향 번역 LLM이 허깅페이스에 무료 공개됨
- 모델은 약 8800만 파라미터, 전체 용량 178MB의 초경량 구조
- 데이터 전처리부터 모델 레이어 설계, 사전학습까지 프롬 스크래치 방식으로 구축
- Apache 2.0 라이선스로 공개돼 연구·서비스 활용 가능성이 열려 있음

## 인사이트

대부분의 언어 AI가 영어와 대형 언어권 중심으로 굴러가는 상황에서, 제주어 같은 로우 리소스 언어를 위한 모델이 오픈소스로 나온 건 꽤 의미 있음. 모델 크기도 작아서 ‘보존’뿐 아니라 실제 배포 가능성을 염두에 둔 선택으로 보임.
