본문으로 건너뛰기
피드

AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

ai-ml 약 7분
vote
0
댓글
북마크

LG AI연구원은 생성형 AI 저작권·데이터 공급망 리스크에 대응하려면 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 추적하는 AI-BOM이 필요하다고 설명했다. 자체 분석에서는 상업적으로 이용 가능해 보이는 2852개 데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 데이터셋이 605개, 약 21.21%에 그쳤다. 오픈소스 코드 기준의 라이선스 판단을 AI 학습데이터에 그대로 적용하면 큰 오판이 날 수 있다는 얘기다.

  • 1

    AI-BOM은 AI 모델의 데이터, 모델, 소프트웨어, 라이선스, 보안 요소를 기록하는 일종의 AI 성분표임

  • 2

    AI 학습데이터는 텍스트, 이미지, 영상, 오디오 등 인간이 만든 다양한 저작물로 확장돼 기존 오픈소스 관리와 다름

  • 3

    생성형 AI 분쟁은 학습 과정의 복제·2차적 저작물 문제와 생성 결과물의 침해 문제로 나뉨

  • 4

    LG AI연구원 분석에서 2852개 데이터셋 중 실제 상업적 이용 가능 데이터셋은 605개, 약 21.21%에 그침

  • 5

    캘리포니아에서는 2026년 1월 1일부터 생성형 AI 학습데이터 목록 고지 의무가 언급됨

  • 생성형 AI 저작권 문제를 다루려면 이제 ‘AI 성분표’가 필요하다는 주장이 나옴

    • LG AI연구원 조정원 변호사는 오픈소스&AI 컨퍼런스2026에서 AI-BOM 기반 투명성 컴플라이언스를 발표함
    • AI-BOM은 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 적어두자는 개념임
    • 쉽게 말하면 소프트웨어의 SBOM을 AI 모델과 학습데이터까지 확장한 버전임
  • 기존 오픈소스 관리 방식으로는 AI 학습데이터를 다루기 어렵다는 게 핵심 문제임

    • 소스코드는 코드라는 형태가 분명하고 라이선스 조건도 비교적 표준화돼 있음
    • AI 학습데이터는 텍스트, 이미지, 영상, 오디오, 논문, 기사, 게시글처럼 인간이 만든 거의 모든 저작물로 넓어짐
    • 이 자료들은 원래 AI 학습을 위해 만들어진 게 아니라서, 사용 목적과 권리 관계가 훨씬 복잡함
  • 생성형 AI 저작권 분쟁은 크게 두 갈래임

    • 첫째, AI가 학습하는 과정에서 원저작물을 복제하거나 2차적 저작물을 만든 것으로 볼 수 있는지임
    • 둘째, AI가 만든 결과물이 기존 저작물을 침해하는지임
    • 미국과 한국에는 공정이용 개념이 있지만, 영국은 공정거래라는 다른 법리를 쓰기 때문에 국가별 판단도 달라짐

⚠️주의

> “오픈소스 라이선스가 붙어 있으니 상업적으로 써도 되겠지”라는 판단이 AI 학습데이터에서는 크게 틀릴 수 있음. LG AI연구원 분석에서는 겉보기와 실제 사용 가능성이 크게 갈렸음.

  • 기업 입장에서는 공정이용만 믿고 가기 어려움

    • AI 모델은 한 국가 안에서만 쓰이지 않고 글로벌 서비스, 가전제품, 로봇, 업무 시스템에 들어갈 수 있음
    • 문제가 있는 데이터로 학습한 모델이 엔터프라이즈에 공급되면 저작권뿐 아니라 부정경쟁, 개인정보, 영업비밀, 소비자 피해로 번질 수 있음
    • 공급망을 한 번, 두 번, 세 번 거쳐 배포된 모델에서 문제가 터지면 책임 소재를 가리기도 어려워짐
  • 규제 흐름도 데이터 투명성 쪽으로 움직이고 있음

    • 조 변호사는 2026년 1월 1일부터 캘리포니아에서 개발된 AI 시스템이나 서비스는 생성형 AI 학습데이터 목록을 웹사이트에 고지해야 한다고 설명함
    • 데이터셋 출처나 합성데이터 사용 여부 공개 요구도 나오는 중임
    • AI 모델을 공개하거나 제품에 탑재하는 기업은 데이터 출처를 추적할 수 있는 체계를 미리 갖춰야 하는 분위기임
  • LG AI연구원은 3년 전부터 그룹 차원의 데이터 컴플라이언스 가이드라인을 만들었다고 함

    • AI 학습데이터를 저작권법, 개인정보보호법, 분쟁 가능성 기준으로 평가해 위험도를 측정하는 틀임
    • 모델을 외부에 공개하기 전 개별 데이터셋의 라이선스, 사용 기간과 지역, 개인정보 및 보안, 추가 법적 리스크를 나눠 살펴봄
    • 단순히 데이터셋 이름만 보는 게 아니라 비슷한 산출물이 나왔을 때의 위험까지 고려한다고 설명함
  • 가장 충격적인 숫자는 2852개 데이터셋 분석 결과임

    • LG AI연구원은 엑사원 넥서스 기반 데이터 컴플라이언스 에이전트로 데이터 출처와 계보, 라이선스, 위험 요소를 분석함
    • 상업적으로 이용 가능하다고 판단된 AI 학습데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 것은 605개뿐이었음
    • 비율로는 약 21.21%임
    • 조 변호사는 오픈소스 코드에서 하던 판단을 그대로 AI 학습데이터에 적용하면 약 80% 의사결정이 잘못될 수 있다는 의미라고 설명함
  • 개발자에게는 꽤 현실적인 메시지임

    • 데이터셋 카드에 라이선스가 적혀 있어도 그 안의 원천 데이터나 파생 데이터 조건까지 봐야 함
    • 모델을 공개하거나 상용 제품에 넣을 계획이라면 학습데이터 목록, 출처, 계보, 사용권한을 추적해야 함
    • 성능 좋은 모델을 만드는 일과 법적으로 배포 가능한 모델을 만드는 일이 점점 분리되지 않는 분위기임

기술 맥락

  • AI-BOM이 필요한 이유는 AI 모델이 코드만으로 만들어지지 않기 때문이에요. 소프트웨어는 어떤 라이브러리를 썼는지 보면 위험을 어느 정도 추적할 수 있지만, 생성형 AI는 학습데이터의 출처와 권리 관계가 결과물 리스크로 이어져요.

  • 데이터셋 라이선스만 보는 것도 부족해요. 어떤 데이터셋이 상업 이용 가능하다고 표시돼 있어도, 그 안에 포함된 원천 데이터나 종속 데이터가 다른 조건을 갖고 있으면 실제 사용 가능성이 달라질 수 있거든요.

  • LG AI연구원이 에이전트로 2852개 데이터셋을 분석한 건 이 문제를 수작업으로 처리하기 어렵기 때문이에요. 데이터 출처, 계보, 라이선스, 위험 요소를 계속 따라가야 해서 모델 개발 파이프라인 안에 컴플라이언스 자동화가 들어와야 해요.

  • 개발팀에서는 이걸 출시 직전 법무 검토로만 보면 늦어요. 학습데이터를 수집하고 정제하는 단계부터 기록을 남겨야 나중에 모델을 외부 공개하거나 제품에 넣을 때 “이 데이터 써도 되는가”를 판단할 수 있어요.

개발팀 입장에서는 ‘라이선스 붙어 있으니 괜찮겠지’가 더 이상 통하지 않는다는 얘기다. 모델 성능 경쟁만큼이나 데이터 출처와 계보 추적이 제품 출시 리스크를 좌우하는 영역으로 올라왔다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

KT, 경기권 스타트업에 AI·클라우드 전환 전략 공유

KT가 경기권 스타트업을 대상으로 AI와 클라우드를 활용한 AX 전환 전략을 공유했다. AWS, 데이터브릭스, KT클라우드와 함께 AI 에이전트, 데이터 기반 의사결정, 클라우드 전환 사례를 소개하며 스타트업이 실제 업무에 적용할 수 있는 방향을 제시했다.

ai-ml

네이버클라우드, 국방 AI에 ‘옴니모달·엣지 데이터센터’ 카드 꺼냈다

네이버클라우드가 국방 AI를 실제 작전 환경에 적용하기 위한 전략을 공개했다. 핵심은 텍스트·음성·영상·지도 데이터를 한 작전 상황으로 묶는 옴니모달 AI, 중앙·엣지 데이터센터, 온톨로지 기반 지식체계, 현장 엔지니어 전진 배치다. 해외의 합동 지휘통제 사례까지 끌어오며 국방 AI가 단순 자동화가 아니라 미래 지휘통제 경쟁력이라는 메시지를 던졌다.

ai-ml

네이버클라우드, 국방 AI 시장에 풀스택으로 들어가려는 그림

네이버클라우드가 국방 인공지능 전환 시장을 겨냥해 옴니모달 AI, 국방 전용 AI 데이터센터, 전장 엣지, 현장 파견 엔지니어 체계를 묶은 전략을 공개했다. 단순 모델 납품이 아니라 폐쇄망 클라우드와 작전 체계 연동까지 포함한 국방 AI 인프라 포지셔닝에 가깝다.

ai-ml

네이버클라우드, 국방 AI 전담팀 꾸리고 ‘소버린 AI’로 합참 AX 겨냥

네이버클라우드가 국방 AX 전담 조직을 만들고 소버린 AI 기반 국방 인프라 전략을 공개했다. 하이퍼클로바X 옴니모달, 구축형 클라우드, 온톨로지 기반 지식체계, 현장 배치형 개발자를 묶어 군사 데이터를 통합 분석하는 풀스택 전략을 내세웠다. 합참의 K-JADC2 추진 흐름과 맞물려 국내 클라우드·AI 기업들의 국방 시장 경쟁이 본격화되는 분위기다.

ai-ml

구글, 토큰을 한 글자씩 찍지 않는 오픈소스 모델 ‘디퓨전젬마’ 공개

구글이 자기회귀 방식 대신 확산 기반으로 텍스트를 생성하는 오픈소스 모델 ‘디퓨전젬마’를 공개했다. 한 번에 256개 토큰 블록을 만들고 반복 정제하는 방식이라 H100에서 초당 1000토큰 이상, RTX 5090에서도 초당 700토큰 이상을 낸다는 점이 핵심이다. 다만 품질은 아직 젬마4보다 낮아 연구용·실험용 성격이 강하다.