---
title: "AI 시대 지식주권, 모델 성능보다 데이터 구조가 먼저라는 얘기"
published: 2026-05-26T17:05:03.415Z
canonical: https://jeff.news/article/3263
---
# AI 시대 지식주권, 모델 성능보다 데이터 구조가 먼저라는 얘기

한국AI서비스학회 세미나에서 AI 시대 지식주권을 데이터 보호를 넘어 출처, 맥락, 통제권, 활용 구조의 문제로 봐야 한다는 논의가 나왔다. 외부 LLM API를 계속 쓸지, 오픈소스 기반 자체 구축으로 갈지, 온톨로지로 지식을 어떻게 구조화할지가 주요 쟁점이었다.

## 지식주권 얘기가 “데이터 보관”에서 “구조 설계”로 넘어감

- 한국AI서비스학회 지식주권AI서비스 분과 세미나에서 나온 핵심 질문은 꽤 현실적임
  - AI가 어떤 데이터를 학습했는가
  - 답변의 출처와 맥락을 추적할 수 있는가
  - 개인과 기업 데이터가 계속 외부 대규모 언어 모델(LLM)에 들어가도 괜찮은가

- 세미나 주제는 “지식(데이터) 주권을 위한 오픈소스 활성화 전략”이었음
  - 피지컬 AI 데이터 인프라
  - 지식주권
  - 오픈소스 주도권
  - 온톨로지 기반 책임 있는 AI 구현이 주요 의제로 다뤄짐

- 양재수 한국데이터산업진흥원장은 피지컬 AI 시대 경쟁력을 고품질 현장 데이터와 국가 차원의 데이터 인프라에서 봤음
  - 도시재난안전, 시설물 관리, 교량, 터널, 지하공간, 철도, 소방시설 같은 영역이 언급됨
  - 센서, CCTV, 드론, 설비 데이터가 향후 AI 운영체계의 기반이 될 수 있다는 얘기임

## AI 답변을 믿으려면 출처와 맥락이 남아야 함

- 이제응 분과장은 지식주권을 인간 지성, 기여 보상, 집단지성, 오픈소스 기술 주도권까지 넓혀서 설명함
  - 무단, 무분별, 무보상 AI 학습은 지식 제공자의 통제권을 약화시킬 수 있음
  - 기여 동기가 무너지면 장기적으로 좋은 지식 생태계도 흔들릴 수 있다는 문제의식임

- 신동호 토지 대표는 오픈소스 온톨로지 구현체 고피디아(Gopedia)를 소개함
  - 마크다운(Markdown), PDF, 코드(Code), 슬랙(Slack), 티켓 같은 다양한 지식 소스를 흡수하는 구조임
  - 의미 검색과 키워드 검색을 결합해 필요한 근거를 찾는 방식으로 설명됨
  - 출처와 이력 정보를 통해 AI 답변의 근거를 추적할 수 있게 설계됐다고 함

> [!NOTE]
> 여기서 온톨로지는 멋있는 용어 하나 추가한 게 아니라, “AI가 왜 이런 답을 했는지 나중에 따져볼 수 있느냐”의 문제에 가까움.

- 현장에서는 온톨로지를 도메인별로 따로 설계해야 하는지도 질문으로 나옴
  - 점, 선, 면 같은 보편 구조가 여러 분야에 공통 적용될 수 있는지
  - 아니면 산업마다 규칙과 맥락이 달라서 분야별 설계가 필요한지에 대한 논의임
  - 결론적으로 낮은 단계에서부터 출처와 구조를 정리해두면 상위 AI 서비스가 활용할 수 있다는 취지의 의견이 이어짐

## 외부 LLM API냐, 오픈소스 자체 구축이냐

- 개인과 기업이 계속 외부 LLM API를 써도 되는지에 대한 고민도 직접적으로 나옴
  - 외부 API는 성능 향상과 편의성이 크다는 장점이 있음
  - 대신 내부 지식, 개인 데이터, 기업 데이터의 통제권 문제가 따라옴
  - 오픈소스 기반 자체 구축은 통제권을 높일 수 있지만 비용, 운영 역량, 모델 성능 격차가 부담임

- 이 논의가 소버린 AI를 추상적인 구호에서 실제 운영 전략으로 끌어내림
  - 어떤 데이터를 외부로 보낼 것인가
  - 어떤 데이터는 내부에 남길 것인가
  - 모델 성능과 보안, 비용, 통제권 중 무엇을 우선할 것인가를 따져야 함

- AI 일자리 전환 이야기도 같이 나옴
  - 반복적, 물리적 업무는 AI와 피지컬 AI로 대체될 가능성이 커짐
  - 반대로 데이터를 정리하고 구조화하고 AI 시스템을 운영하는 역량은 더 중요해질 수 있음
  - 인프라, 데이터, 서비스 업무가 AI 도입 이후 더 통합적으로 관리될 수 있다는 의견도 제시됨

- 오픈소스 전략도 “공개냐 비공개냐”의 단순한 문제가 아니었음
  - 어떤 지식을 공개하고, 어떤 지식은 보호할 것인가
  - 누가 프로젝트를 이끌고 라이선스를 어떻게 운영할 것인가
  - 기여 보상과 생태계 신뢰를 어떻게 설계할 것인가가 산업 경쟁력으로 이어질 수 있다는 얘기임

- 세미나의 질문은 결국 하나로 모임. AI 답변을 믿기 위해 무엇을 함께 남겨야 하느냐임
  - 출처
  - 맥락
  - 기여자
  - 데이터 구조
  - 활용 권한이 같이 관리되지 않으면 AI 서비스의 신뢰성과 책임성은 제한될 수밖에 없음

---
## 기술 맥락

- 이 기사에서 중요한 선택지는 외부 LLM API를 계속 쓸지, 오픈소스 기반으로 자체 통제 구조를 만들지예요. 외부 API는 빠르고 편하지만, 회사 지식과 개인 데이터가 어떤 경로로 쓰이는지 설명하기 어려워질 수 있거든요.

- 온톨로지가 같이 언급되는 이유는 모델 자체보다 지식의 구조가 문제이기 때문이에요. 문서가 많아도 출처와 관계가 정리돼 있지 않으면 AI는 그럴듯한 답을 만들 수는 있어도, 왜 그 답이 맞는지 추적하기 어려워요.

- 고피디아 같은 구현체는 여러 지식 소스를 연결하고 출처, 이력, 검색 방식을 같이 다루려는 시도예요. 기업 내부에서는 슬랙, 티켓, PDF, 코드가 따로 흩어져 있기 때문에 이런 구조화 없이는 AI 검색이 금방 “그럴듯한 사내 검색” 수준에 머물 수 있어요.

- 결국 지식주권은 서버를 국내에 두느냐만의 문제가 아니에요. 누가 데이터를 만들었고, 어떤 맥락에서 연결됐고, 어떤 권한으로 AI가 활용하는지 남겨야 나중에 책임 있는 AI 운영이 가능해져요.

## 핵심 포인트

- 지식주권 논의가 데이터 보관을 넘어 출처 추적, 기여 보상, 통제권 설계로 확장됐다
- 고피디아는 마크다운, PDF, 코드, 슬랙, 티켓 같은 지식 소스를 연결해 AI 답변의 근거를 추적하는 구현체로 소개됐다
- 외부 LLM API와 오픈소스 자체 구축은 성능, 비용, 보안, 통제권을 같이 놓고 봐야 하는 선택지로 다뤄졌다

## 인사이트

AI 답변의 품질을 모델 크기만으로 설명하던 시기는 지나가고 있다. 기업 입장에서는 ‘무슨 모델을 쓰냐’만큼 ‘내 지식이 어디서 왔고 어떤 권한으로 쓰이는지’를 남기는 구조가 점점 중요해지는 흐름이다.