AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

ai-ml 2026-06-11 약 7분

 tags

#ai-bom #copyright #compliance #dataset #license

vote

북마크

LG AI연구원은 생성형 AI 저작권·데이터 공급망 리스크에 대응하려면 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 추적하는 AI-BOM이 필요하다고 설명했다. 자체 분석에서는 상업적으로 이용 가능해 보이는 2852개 데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 데이터셋이 605개, 약 21.21%에 그쳤다. 오픈소스 코드 기준의 라이선스 판단을 AI 학습데이터에 그대로 적용하면 큰 오판이 날 수 있다는 얘기다.

1
AI-BOM은 AI 모델의 데이터, 모델, 소프트웨어, 라이선스, 보안 요소를 기록하는 일종의 AI 성분표임
2
AI 학습데이터는 텍스트, 이미지, 영상, 오디오 등 인간이 만든 다양한 저작물로 확장돼 기존 오픈소스 관리와 다름
3
생성형 AI 분쟁은 학습 과정의 복제·2차적 저작물 문제와 생성 결과물의 침해 문제로 나뉨
4
LG AI연구원 분석에서 2852개 데이터셋 중 실제 상업적 이용 가능 데이터셋은 605개, 약 21.21%에 그침
5
캘리포니아에서는 2026년 1월 1일부터 생성형 AI 학습데이터 목록 고지 의무가 언급됨

생성형 AI 저작권 문제를 다루려면 이제 ‘AI 성분표’가 필요하다는 주장이 나옴
- LG AI연구원 조정원 변호사는 오픈소스&AI 컨퍼런스2026에서 AI-BOM 기반 투명성 컴플라이언스를 발표함
- AI-BOM은 AI 모델이 어떤 데이터, 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 적어두자는 개념임
- 쉽게 말하면 소프트웨어의 SBOM을 AI 모델과 학습데이터까지 확장한 버전임
기존 오픈소스 관리 방식으로는 AI 학습데이터를 다루기 어렵다는 게 핵심 문제임
- 소스코드는 코드라는 형태가 분명하고 라이선스 조건도 비교적 표준화돼 있음
- AI 학습데이터는 텍스트, 이미지, 영상, 오디오, 논문, 기사, 게시글처럼 인간이 만든 거의 모든 저작물로 넓어짐
- 이 자료들은 원래 AI 학습을 위해 만들어진 게 아니라서, 사용 목적과 권리 관계가 훨씬 복잡함
생성형 AI 저작권 분쟁은 크게 두 갈래임
- 첫째, AI가 학습하는 과정에서 원저작물을 복제하거나 2차적 저작물을 만든 것으로 볼 수 있는지임
- 둘째, AI가 만든 결과물이 기존 저작물을 침해하는지임
- 미국과 한국에는 공정이용 개념이 있지만, 영국은 공정거래라는 다른 법리를 쓰기 때문에 국가별 판단도 달라짐

⚠️주의

> “오픈소스 라이선스가 붙어 있으니 상업적으로 써도 되겠지”라는 판단이 AI 학습데이터에서는 크게 틀릴 수 있음. LG AI연구원 분석에서는 겉보기와 실제 사용 가능성이 크게 갈렸음.

기업 입장에서는 공정이용만 믿고 가기 어려움
- AI 모델은 한 국가 안에서만 쓰이지 않고 글로벌 서비스, 가전제품, 로봇, 업무 시스템에 들어갈 수 있음
- 문제가 있는 데이터로 학습한 모델이 엔터프라이즈에 공급되면 저작권뿐 아니라 부정경쟁, 개인정보, 영업비밀, 소비자 피해로 번질 수 있음
- 공급망을 한 번, 두 번, 세 번 거쳐 배포된 모델에서 문제가 터지면 책임 소재를 가리기도 어려워짐
규제 흐름도 데이터 투명성 쪽으로 움직이고 있음
- 조 변호사는 2026년 1월 1일부터 캘리포니아에서 개발된 AI 시스템이나 서비스는 생성형 AI 학습데이터 목록을 웹사이트에 고지해야 한다고 설명함
- 데이터셋 출처나 합성데이터 사용 여부 공개 요구도 나오는 중임
- AI 모델을 공개하거나 제품에 탑재하는 기업은 데이터 출처를 추적할 수 있는 체계를 미리 갖춰야 하는 분위기임
LG AI연구원은 3년 전부터 그룹 차원의 데이터 컴플라이언스 가이드라인을 만들었다고 함
- AI 학습데이터를 저작권법, 개인정보보호법, 분쟁 가능성 기준으로 평가해 위험도를 측정하는 틀임
- 모델을 외부에 공개하기 전 개별 데이터셋의 라이선스, 사용 기간과 지역, 개인정보 및 보안, 추가 법적 리스크를 나눠 살펴봄
- 단순히 데이터셋 이름만 보는 게 아니라 비슷한 산출물이 나왔을 때의 위험까지 고려한다고 설명함
가장 충격적인 숫자는 2852개 데이터셋 분석 결과임
- LG AI연구원은 엑사원 넥서스 기반 데이터 컴플라이언스 에이전트로 데이터 출처와 계보, 라이선스, 위험 요소를 분석함
- 상업적으로 이용 가능하다고 판단된 AI 학습데이터셋 중 종속 데이터 리스크까지 고려하면 실제 사용 가능한 것은 605개뿐이었음
- 비율로는 약 21.21%임
- 조 변호사는 오픈소스 코드에서 하던 판단을 그대로 AI 학습데이터에 적용하면 약 80% 의사결정이 잘못될 수 있다는 의미라고 설명함
개발자에게는 꽤 현실적인 메시지임
- 데이터셋 카드에 라이선스가 적혀 있어도 그 안의 원천 데이터나 파생 데이터 조건까지 봐야 함
- 모델을 공개하거나 상용 제품에 넣을 계획이라면 학습데이터 목록, 출처, 계보, 사용권한을 추적해야 함
- 성능 좋은 모델을 만드는 일과 법적으로 배포 가능한 모델을 만드는 일이 점점 분리되지 않는 분위기임

기술 맥락

AI-BOM이 필요한 이유는 AI 모델이 코드만으로 만들어지지 않기 때문이에요. 소프트웨어는 어떤 라이브러리를 썼는지 보면 위험을 어느 정도 추적할 수 있지만, 생성형 AI는 학습데이터의 출처와 권리 관계가 결과물 리스크로 이어져요.
데이터셋 라이선스만 보는 것도 부족해요. 어떤 데이터셋이 상업 이용 가능하다고 표시돼 있어도, 그 안에 포함된 원천 데이터나 종속 데이터가 다른 조건을 갖고 있으면 실제 사용 가능성이 달라질 수 있거든요.
LG AI연구원이 에이전트로 2852개 데이터셋을 분석한 건 이 문제를 수작업으로 처리하기 어렵기 때문이에요. 데이터 출처, 계보, 라이선스, 위험 요소를 계속 따라가야 해서 모델 개발 파이프라인 안에 컴플라이언스 자동화가 들어와야 해요.
개발팀에서는 이걸 출시 직전 법무 검토로만 보면 늦어요. 학습데이터를 수집하고 정제하는 단계부터 기록을 남겨야 나중에 모델을 외부 공개하거나 제품에 넣을 때 “이 데이터 써도 되는가”를 판단할 수 있어요.

개발팀 입장에서는 ‘라이선스 붙어 있으니 괜찮겠지’가 더 이상 통하지 않는다는 얘기다. 모델 성능 경쟁만큼이나 데이터 출처와 계보 추적이 제품 출시 리스크를 좌우하는 영역으로 올라왔다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

AI 학습데이터도 성분표가 필요해졌다, LG AI연구원이 말한 ‘AI-BOM’

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사