본문으로 건너뛰기
피드

AI 시대 지식주권, 모델 성능보다 데이터 구조가 먼저라는 얘기

ai-ml 약 6분
vote
0
댓글
북마크

한국AI서비스학회 세미나에서 AI 시대 지식주권을 데이터 보호를 넘어 출처, 맥락, 통제권, 활용 구조의 문제로 봐야 한다는 논의가 나왔다. 외부 LLM API를 계속 쓸지, 오픈소스 기반 자체 구축으로 갈지, 온톨로지로 지식을 어떻게 구조화할지가 주요 쟁점이었다.

  • 1

    지식주권 논의가 데이터 보관을 넘어 출처 추적, 기여 보상, 통제권 설계로 확장됐다

  • 2

    고피디아는 마크다운, PDF, 코드, 슬랙, 티켓 같은 지식 소스를 연결해 AI 답변의 근거를 추적하는 구현체로 소개됐다

  • 3

    외부 LLM API와 오픈소스 자체 구축은 성능, 비용, 보안, 통제권을 같이 놓고 봐야 하는 선택지로 다뤄졌다

지식주권 얘기가 “데이터 보관”에서 “구조 설계”로 넘어감

  • 한국AI서비스학회 지식주권AI서비스 분과 세미나에서 나온 핵심 질문은 꽤 현실적임

    • AI가 어떤 데이터를 학습했는가
    • 답변의 출처와 맥락을 추적할 수 있는가
    • 개인과 기업 데이터가 계속 외부 대규모 언어 모델(LLM)에 들어가도 괜찮은가
  • 세미나 주제는 “지식(데이터) 주권을 위한 오픈소스 활성화 전략”이었음

    • 피지컬 AI 데이터 인프라
    • 지식주권
    • 오픈소스 주도권
    • 온톨로지 기반 책임 있는 AI 구현이 주요 의제로 다뤄짐
  • 양재수 한국데이터산업진흥원장은 피지컬 AI 시대 경쟁력을 고품질 현장 데이터와 국가 차원의 데이터 인프라에서 봤음

    • 도시재난안전, 시설물 관리, 교량, 터널, 지하공간, 철도, 소방시설 같은 영역이 언급됨
    • 센서, CCTV, 드론, 설비 데이터가 향후 AI 운영체계의 기반이 될 수 있다는 얘기임

AI 답변을 믿으려면 출처와 맥락이 남아야 함

  • 이제응 분과장은 지식주권을 인간 지성, 기여 보상, 집단지성, 오픈소스 기술 주도권까지 넓혀서 설명함

    • 무단, 무분별, 무보상 AI 학습은 지식 제공자의 통제권을 약화시킬 수 있음
    • 기여 동기가 무너지면 장기적으로 좋은 지식 생태계도 흔들릴 수 있다는 문제의식임
  • 신동호 토지 대표는 오픈소스 온톨로지 구현체 고피디아(Gopedia)를 소개함

    • 마크다운(Markdown), PDF, 코드(Code), 슬랙(Slack), 티켓 같은 다양한 지식 소스를 흡수하는 구조임
    • 의미 검색과 키워드 검색을 결합해 필요한 근거를 찾는 방식으로 설명됨
    • 출처와 이력 정보를 통해 AI 답변의 근거를 추적할 수 있게 설계됐다고 함

ℹ️참고

> 여기서 온톨로지는 멋있는 용어 하나 추가한 게 아니라, “AI가 왜 이런 답을 했는지 나중에 따져볼 수 있느냐”의 문제에 가까움.

  • 현장에서는 온톨로지를 도메인별로 따로 설계해야 하는지도 질문으로 나옴
    • 점, 선, 면 같은 보편 구조가 여러 분야에 공통 적용될 수 있는지
    • 아니면 산업마다 규칙과 맥락이 달라서 분야별 설계가 필요한지에 대한 논의임
    • 결론적으로 낮은 단계에서부터 출처와 구조를 정리해두면 상위 AI 서비스가 활용할 수 있다는 취지의 의견이 이어짐

외부 LLM API냐, 오픈소스 자체 구축이냐

  • 개인과 기업이 계속 외부 LLM API를 써도 되는지에 대한 고민도 직접적으로 나옴

    • 외부 API는 성능 향상과 편의성이 크다는 장점이 있음
    • 대신 내부 지식, 개인 데이터, 기업 데이터의 통제권 문제가 따라옴
    • 오픈소스 기반 자체 구축은 통제권을 높일 수 있지만 비용, 운영 역량, 모델 성능 격차가 부담임
  • 이 논의가 소버린 AI를 추상적인 구호에서 실제 운영 전략으로 끌어내림

    • 어떤 데이터를 외부로 보낼 것인가
    • 어떤 데이터는 내부에 남길 것인가
    • 모델 성능과 보안, 비용, 통제권 중 무엇을 우선할 것인가를 따져야 함
  • AI 일자리 전환 이야기도 같이 나옴

    • 반복적, 물리적 업무는 AI와 피지컬 AI로 대체될 가능성이 커짐
    • 반대로 데이터를 정리하고 구조화하고 AI 시스템을 운영하는 역량은 더 중요해질 수 있음
    • 인프라, 데이터, 서비스 업무가 AI 도입 이후 더 통합적으로 관리될 수 있다는 의견도 제시됨
  • 오픈소스 전략도 “공개냐 비공개냐”의 단순한 문제가 아니었음

    • 어떤 지식을 공개하고, 어떤 지식은 보호할 것인가
    • 누가 프로젝트를 이끌고 라이선스를 어떻게 운영할 것인가
    • 기여 보상과 생태계 신뢰를 어떻게 설계할 것인가가 산업 경쟁력으로 이어질 수 있다는 얘기임
  • 세미나의 질문은 결국 하나로 모임. AI 답변을 믿기 위해 무엇을 함께 남겨야 하느냐임

    • 출처
    • 맥락
    • 기여자
    • 데이터 구조
    • 활용 권한이 같이 관리되지 않으면 AI 서비스의 신뢰성과 책임성은 제한될 수밖에 없음

기술 맥락

  • 이 기사에서 중요한 선택지는 외부 LLM API를 계속 쓸지, 오픈소스 기반으로 자체 통제 구조를 만들지예요. 외부 API는 빠르고 편하지만, 회사 지식과 개인 데이터가 어떤 경로로 쓰이는지 설명하기 어려워질 수 있거든요.

  • 온톨로지가 같이 언급되는 이유는 모델 자체보다 지식의 구조가 문제이기 때문이에요. 문서가 많아도 출처와 관계가 정리돼 있지 않으면 AI는 그럴듯한 답을 만들 수는 있어도, 왜 그 답이 맞는지 추적하기 어려워요.

  • 고피디아 같은 구현체는 여러 지식 소스를 연결하고 출처, 이력, 검색 방식을 같이 다루려는 시도예요. 기업 내부에서는 슬랙, 티켓, PDF, 코드가 따로 흩어져 있기 때문에 이런 구조화 없이는 AI 검색이 금방 “그럴듯한 사내 검색” 수준에 머물 수 있어요.

  • 결국 지식주권은 서버를 국내에 두느냐만의 문제가 아니에요. 누가 데이터를 만들었고, 어떤 맥락에서 연결됐고, 어떤 권한으로 AI가 활용하는지 남겨야 나중에 책임 있는 AI 운영이 가능해져요.

AI 답변의 품질을 모델 크기만으로 설명하던 시기는 지나가고 있다. 기업 입장에서는 ‘무슨 모델을 쓰냐’만큼 ‘내 지식이 어디서 왔고 어떤 권한으로 쓰이는지’를 남기는 구조가 점점 중요해지는 흐름이다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.