본문으로 건너뛰기
피드

제주어 번역 LLM, 88M 초경량 오픈소스로 공개

open-source 약 4분

피씨엔이 제주어와 표준어를 양방향으로 번역하는 AI 번역 거대언어모델을 개발해 허깅페이스에 공개했다. 8800만 파라미터, 178MB 크기의 디코더 전용 모델이며, Apache 2.0 라이선스로 누구나 사용할 수 있게 풀렸다.

  • 1

    제주어·표준어 양방향 번역 LLM이 허깅페이스에 무료 공개됨

  • 2

    모델은 약 8800만 파라미터, 전체 용량 178MB의 초경량 구조

  • 3

    데이터 전처리부터 모델 레이어 설계, 사전학습까지 프롬 스크래치 방식으로 구축

  • 4

    Apache 2.0 라이선스로 공개돼 연구·서비스 활용 가능성이 열려 있음

  • 피씨엔이 제주어와 표준어를 서로 번역하는 AI 번역 거대언어모델(LLM)을 공개함

    • 대상은 소멸 위기에 처한 제주 방언, 즉 제주어
    • 공개 위치는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)
    • 무료 공개이고, 라이선스는 Apache 2.0임
  • 이 모델은 ‘제주어 보존’이라는 공익 목적을 꽤 전면에 내세움

    • 피씨엔은 제주어가 일상에서 점점 사라지는 현실을 AI 기술로 보완하려 했다고 설명함
    • 영어 같은 주류 언어뿐 아니라 지역 방언, 로우 리소스 언어에도 AI 언어 모델의 혜택을 넓힐 수 있다는 사례로 보고 있음
  • 스펙은 작지만 의도가 명확함. 약 8800만(88M) 파라미터, 전체 용량 178MB짜리 초경량 모델임

    • 디코더 전용 아키텍처로 설계됨
    • 고성능 서버가 아니라 일반 소비자용 그래픽처리장치(GPU)나 온디바이스 환경에서도 구동될 수 있도록 접근성을 높였다고 밝힘
    • ‘일단 크게 만들고 클라우드에서 돌리자’가 아니라, 실제로 여러 환경에서 써볼 수 있게 작게 만든 쪽에 가까움

중요

> 88M 파라미터와 178MB라는 숫자가 핵심임. 제주어 같은 로우 리소스 언어 모델은 연구용 데모보다, 가볍게 배포되고 반복 개선될 수 있는 구조가 훨씬 중요함.

  • 개발 방식도 단순 파인튜닝 홍보와는 결이 다름

    • 피씨엔은 데이터 전처리부터 모델 레이어 설계, 사전학습까지 직접 쌓아 올린 ‘프롬 스크래치’ 방식이라고 설명함
    • 학습 데이터는 AI허브를 비롯해 외부에 공개된 다양한 제주어 데이터를 활용함
  • 오픈소스로 풀린 덕분에 활용 가능성도 꽤 넓어짐

    • 연구자는 제주어 자연어처리(NLP) 실험의 출발점으로 쓸 수 있음
    • 지자체나 교육 기관은 제주어 학습, 문화 보존, 번역 보조 서비스에 붙여볼 수 있음
    • 기업 입장에서는 작은 언어 모델을 특정 도메인·지역 언어에 맞춰 만드는 레퍼런스로 볼 수 있음
  • 물론 관건은 공개 이후임

    • 로우 리소스 언어 모델은 데이터 품질과 평가셋이 부족하면 성능 검증이 흐릿해지기 쉬움
    • 실제 제주어 사용자들이 번역 품질을 어떻게 평가하고, 커뮤니티 피드백이 모델 개선으로 이어지는지가 다음 단계가 될 가능성이 큼

기술 맥락

  • 이 모델에서 중요한 선택은 ‘작게 만들었다’는 점이에요. 제주어 번역처럼 사용층이 넓지 않은 모델은 초대형 인프라를 전제로 하면 실제 활용처가 확 줄어들거든요.

  • 프롬 스크래치 방식을 강조한 이유도 있어요. 기존 대형 모델을 살짝 손보는 방식보다 비용과 난도는 높지만, 데이터 전처리와 모델 구조를 언어 특성에 맞춰 잡을 수 있다는 장점이 있어요.

  • Apache 2.0으로 공개한 것도 꽤 실용적인 결정이에요. 라이선스가 빡빡하면 연구는 가능해도 서비스 적용이 애매해지는데, 이 경우에는 교육 앱이나 공공 서비스에 붙여볼 여지가 더 커져요.

  • 제주어 같은 로우 리소스 언어에서는 모델 성능만큼 생태계가 중요해요. 허깅페이스에 공개하면 외부 연구자와 개발자가 테스트하고 개선점을 남길 수 있어서, 사라지는 언어를 데이터와 도구로 붙잡는 기반이 생겨요.

대부분의 언어 AI가 영어와 대형 언어권 중심으로 굴러가는 상황에서, 제주어 같은 로우 리소스 언어를 위한 모델이 오픈소스로 나온 건 꽤 의미 있음. 모델 크기도 작아서 ‘보존’뿐 아니라 실제 배포 가능성을 염두에 둔 선택으로 보임.

댓글

댓글

댓글을 불러오는 중...

open-source

뱀부랩, 오픈소스 슬라이서 개발자에게 법적 압박 걸었다가 역풍 맞음

3D 프린터 제조사 뱀부랩이 OrcaSlicer-BambuLab 개발자에게 중단 요구서를 보내면서 오픈소스와 수리권 커뮤니티의 반발을 샀다. GamersNexus와 Louis Rossmann은 개발자의 허락을 받아 소프트웨어를 다시 호스팅하고, 소송이 걸리면 각각 1만 달러씩 법률 지원을 하겠다고 나섰다.

open-source

OrcaSlicer 포크, Bambu Lab 프린터의 인터넷 연결 기능 되살림

FULU Foundation의 OrcaSlicer-bambulab 포크가 Bambu Lab 프린터에서 LAN 전용 제한 없이 BambuNetwork 기반 인터넷 연결을 다시 지원한다고 밝힘. Windows에서는 WSL 2 설정이 필요하고, Linux에서는 일반 설치만으로 충분하다고 안내함.

open-source

코넬대가 공개한 정확히 2,000줄짜리 교육용 운영체제

코넬대 기반 프로젝트인 egos-2000은 학생이 교육용 운영체제 전체 코드를 직접 읽을 수 있게 만드는 걸 목표로 한다. C, 헤더, 어셈블리, make 파일을 합쳐 정확히 2,000줄이며, QEMU와 RISC-V 보드에서 동작하고 9개 코스 프로젝트가 붙어 있다. 운영체제 수업에서 ‘작지만 전체 구조가 보이는 코드베이스’가 필요했던 사람에게 꽤 반가운 자료다.

open-source

이맥스가 Git 대신 Bazaar를 붙잡았던 6년짜리 오픈소스 드라마

이맥스는 2008년 CVS에서 벗어나면서 Git 대신 GNU 프로젝트인 Bazaar를 선택했고, 이 결정은 성능 벤치마크와 개발자 반발을 압도한 정치적 판단에 가까웠다. Bazaar는 느리고 유지보수도 흔들렸지만, GNU 패키지는 GNU 도구를 써야 한다는 원칙 때문에 전환은 2014년까지 미뤄졌다. 결국 ELPA 브랜치 문제와 Bazaar 개발 중단, 변환 스크립트 준비 끝에 이맥스는 Git으로 옮겨갔다.

open-source

현대차·기아, 오픈소스 특허 방어망 넓혀 소프트웨어 중심 차량 전환 준비

현대차·기아가 오픈소스 소프트웨어 특허 분쟁을 줄이기 위해 글로벌 특허 네트워크 OIN 2.0에 가입했다. 소프트웨어 중심 차량, 클라우드, 커넥티드 서비스처럼 오픈소스 의존도가 큰 영역에서 법적 리스크를 미리 관리하려는 움직임이다.