---
title: "AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’"
published: 2026-06-11T04:05:04.528Z
canonical: https://jeff.news/article/4009
---
# AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

LG AI연구원은 생성형 AI 저작권·데이터 공급망 리스크에 대응하려면 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 추적하는 AI-BOM이 필요하다고 설명했다. 자체 분석에서는 상업적으로 이용 가능해 보이는 2852개 데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 데이터셋이 605개, 약 21.21%에 그쳤다. 오픈소스 코드 기준의 라이선스 판단을 AI 학습데이터에 그대로 적용하면 큰 오판이 날 수 있다는 얘기다.

- 생성형 AI 저작권 문제를 다루려면 이제 ‘AI 성분표’가 필요하다는 주장이 나옴
  - LG AI연구원 조정원 변호사는 오픈소스&AI 컨퍼런스2026에서 AI-BOM 기반 투명성 컴플라이언스를 발표함
  - AI-BOM은 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 적어두자는 개념임
  - 쉽게 말하면 소프트웨어의 SBOM을 AI 모델과 학습데이터까지 확장한 버전임

- 기존 오픈소스 관리 방식으로는 AI 학습데이터를 다루기 어렵다는 게 핵심 문제임
  - 소스코드는 코드라는 형태가 분명하고 라이선스 조건도 비교적 표준화돼 있음
  - AI 학습데이터는 텍스트, 이미지, 영상, 오디오, 논문, 기사, 게시글처럼 인간이 만든 거의 모든 저작물로 넓어짐
  - 이 자료들은 원래 AI 학습을 위해 만들어진 게 아니라서, 사용 목적과 권리 관계가 훨씬 복잡함

- 생성형 AI 저작권 분쟁은 크게 두 갈래임
  - 첫째, AI가 학습하는 과정에서 원저작물을 복제하거나 2차적 저작물을 만든 것으로 볼 수 있는지임
  - 둘째, AI가 만든 결과물이 기존 저작물을 침해하는지임
  - 미국과 한국에는 공정이용 개념이 있지만, 영국은 공정거래라는 다른 법리를 쓰기 때문에 국가별 판단도 달라짐

> [!WARNING]
> “오픈소스 라이선스가 붙어 있으니 상업적으로 써도 되겠지”라는 판단이 AI 학습데이터에서는 크게 틀릴 수 있음. LG AI연구원 분석에서는 겉보기와 실제 사용 가능성이 크게 갈렸음.

- 기업 입장에서는 공정이용만 믿고 가기 어려움
  - AI 모델은 한 국가 안에서만 쓰이지 않고 글로벌 서비스, 가전제품, 로봇, 업무 시스템에 들어갈 수 있음
  - 문제가 있는 데이터로 학습한 모델이 엔터프라이즈에 공급되면 저작권뿐 아니라 부정경쟁, 개인정보, 영업비밀, 소비자 피해로 번질 수 있음
  - 공급망을 한 번, 두 번, 세 번 거쳐 배포된 모델에서 문제가 터지면 책임 소재를 가리기도 어려워짐

- 규제 흐름도 데이터 투명성 쪽으로 움직이고 있음
  - 조 변호사는 2026년 1월 1일부터 캘리포니아에서 개발된 AI 시스템이나 서비스는 생성형 AI 학습데이터 목록을 웹사이트에 고지해야 한다고 설명함
  - 데이터셋 출처나 합성데이터 사용 여부 공개 요구도 나오는 중임
  - AI 모델을 공개하거나 제품에 탑재하는 기업은 데이터 출처를 추적할 수 있는 체계를 미리 갖춰야 하는 분위기임

- LG AI연구원은 3년 전부터 그룹 차원의 데이터 컴플라이언스 가이드라인을 만들었다고 함
  - AI 학습데이터를 저작권법, 개인정보보호법, 분쟁 가능성 기준으로 평가해 위험도를 측정하는 틀임
  - 모델을 외부에 공개하기 전 개별 데이터셋의 라이선스, 사용 기간과 지역, 개인정보 및 보안, 추가 법적 리스크를 나눠 살펴봄
  - 단순히 데이터셋 이름만 보는 게 아니라 비슷한 산출물이 나왔을 때의 위험까지 고려한다고 설명함

- 가장 충격적인 숫자는 2852개 데이터셋 분석 결과임
  - LG AI연구원은 엑사원 넥서스 기반 데이터 컴플라이언스 에이전트로 데이터 출처와 계보, 라이선스, 위험 요소를 분석함
  - 상업적으로 이용 가능하다고 판단된 AI 학습데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 것은 605개뿐이었음
  - 비율로는 약 21.21%임
  - 조 변호사는 오픈소스 코드에서 하던 판단을 그대로 AI 학습데이터에 적용하면 약 80% 의사결정이 잘못될 수 있다는 의미라고 설명함

- 개발자에게는 꽤 현실적인 메시지임
  - 데이터셋 카드에 라이선스가 적혀 있어도 그 안의 원천 데이터나 파생 데이터 조건까지 봐야 함
  - 모델을 공개하거나 상용 제품에 넣을 계획이라면 학습데이터 목록, 출처, 계보, 사용권한을 추적해야 함
  - 성능 좋은 모델을 만드는 일과 법적으로 배포 가능한 모델을 만드는 일이 점점 분리되지 않는 분위기임

---

## 기술 맥락

- AI-BOM이 필요한 이유는 AI 모델이 코드만으로 만들어지지 않기 때문이에요. 소프트웨어는 어떤 라이브러리를 썼는지 보면 위험을 어느 정도 추적할 수 있지만, 생성형 AI는 학습데이터의 출처와 권리 관계가 결과물 리스크로 이어져요.

- 데이터셋 라이선스만 보는 것도 부족해요. 어떤 데이터셋이 상업 이용 가능하다고 표시돼 있어도, 그 안에 포함된 원천 데이터나 종속 데이터가 다른 조건을 갖고 있으면 실제 사용 가능성이 달라질 수 있거든요.

- LG AI연구원이 에이전트로 2852개 데이터셋을 분석한 건 이 문제를 수작업으로 처리하기 어렵기 때문이에요. 데이터 출처, 계보, 라이선스, 위험 요소를 계속 따라가야 해서 모델 개발 파이프라인 안에 컴플라이언스 자동화가 들어와야 해요.

- 개발팀에서는 이걸 출시 직전 법무 검토로만 보면 늦어요. 학습데이터를 수집하고 정제하는 단계부터 기록을 남겨야 나중에 모델을 외부 공개하거나 제품에 넣을 때 “이 데이터 써도 되는가”를 판단할 수 있어요.

## 핵심 포인트

- AI-BOM은 AI 모델의 데이터, 모델, 소프트웨어, 라이선스, 보안 요소를 기록하는 일종의 AI 성분표임
- AI 학습데이터는 텍스트, 이미지, 영상, 오디오 등 인간이 만든 다양한 저작물로 확장돼 기존 오픈소스 관리와 다름
- 생성형 AI 분쟁은 학습 과정의 복제·2차적 저작물 문제와 생성 결과물의 침해 문제로 나뉨
- LG AI연구원 분석에서 2852개 데이터셋 중 실제 상업적 이용 가능 데이터셋은 605개, 약 21.21%에 그침
- 캘리포니아에서는 2026년 1월 1일부터 생성형 AI 학습데이터 목록 고지 의무가 언급됨

## 인사이트

개발팀 입장에서는 ‘라이선스 붙어 있으니 괜찮겠지’가 더 이상 통하지 않는다는 얘기다. 모델 성능 경쟁만큼이나 데이터 출처와 계보 추적이 제품 출시 리스크를 좌우하는 영역으로 올라왔다.