---
title: "생성형 AI 저작권 소송, 핵심은 데이터 삭제가 아니라 학습된 침해다"
published: 2026-05-24T23:05:03.492Z
canonical: https://jeff.news/article/3197
---
# 생성형 AI 저작권 소송, 핵심은 데이터 삭제가 아니라 학습된 침해다

북쓰리 데이터셋과 스노우플레이크의 아크틱 모델을 둘러싼 미국 집단소송을 통해 생성형 AI 학습 데이터의 저작권 문제가 다시 터졌다. 글은 불법 복제물을 지우는 기존 저작권법 방식으로는 모델 가중치 안에 남은 학습 결과를 해결하기 어렵다고 본다. 한국도 데이터 출처 추적, 사전 동의와 거부, 학습된 침해 구제수단을 서둘러야 한다는 주장이다.

- 이번 글의 출발점은 북쓰리라는 데이터셋임. 소설, 시집, 논픽션까지 포함해 약 19만7000권의 책이 담겨 있었다는 게 핵심 주장임.
  - 이 데이터가 허깅페이스에 오픈소스처럼 올라왔고, 스노우플레이크가 내려받아 자사 AI인 아크틱 LLM 학습에 썼다는 의혹이 제기됨.
  - 결국 작가 다리우스 제임스가 작가들을 대표해 미국 몬테나 연방지방법원에 배심원 재판을 요구하는 집단소송을 냄.

- 글쓴이는 이 구조를 데이터 세탁에 가깝게 봄. 불법 복제된 책이 북쓰리라는 이름으로 포장되고, 다시 레드파자마 같은 오픈소스 프로젝트를 거치며 합법 데이터처럼 보인다는 것.
  - 레드파자마는 메타 LLaMA 모델을 재현하기 위해 1조 개 이상의 토큰으로 구성된 거대 데이터를 구축한 프로젝트로 언급됨.
  - 허깅페이스에서 클릭 한 번으로 받을 수 있게 되는 순간, 마지막 이용자는 불법의 기원을 모르는 척하기 쉬워짐.

- 스노우플레이크 쪽 방어 논리는 대충 예상 가능함. 공정이용, 기술 발전을 위한 변형적 이용, 일시적 복제 같은 주장이 나올 수 있다는 얘기임.
  - 하지만 글은 아크틱 LLM이 무료 실험물이 아니라 이윤을 목적으로 하는 상품이라는 점을 짚음.
  - 다운로드, 저장, 전처리, 학습 과정에서 데이터가 계속 복제됐기 때문에 일시적 복제라는 말도 설득력이 약하다고 봄.

> [!IMPORTANT]
> 이 글에서 제일 센 개념은 학습된 침해임. 파일을 삭제해도 모델 가중치와 매개변수 안에 저작물의 흔적이 남는다면, 기존 저작권법의 삭제 명령만으로는 문제가 끝나지 않는다는 주장임.

- 기존 저작권법은 물리적 복제물을 상정하고 만들어진 면이 큼. 불법 CD를 압수하거나 해적판 책을 폐기하면 침해물이 사라진다는 식임.
  - 그런데 AI 모델은 책 파일을 지워도 이미 학습한 패턴이 가중치와 수십억 개 매개변수 안에 남을 수 있음.
  - 그래서 법원이 침해 복제물 폐기를 명령하더라도 모델 자체를 어떻게 할지가 진짜 어려운 문제로 남음.

- 글은 AI 기업들이 리스크를 몰랐던 게 아니라고 봄. 일단 모델을 만들고 시장을 장악한 뒤, 나중에 손해배상으로 대응할 수 있다고 계산했을 가능성을 지적함.
  - 미국에서 AI 기업을 상대로 한 소송이 이미 60번째라는 숫자도 그래서 중요함.
  - 개별 사건 하나가 아니라 산업 전체의 누적된 경고로 봐야 한다는 톤임.

- 한국도 남의 일이 아님. 국내 AI 기업들이 쓰는 데이터 출처가 투명하고 합법적인지 따져야 한다는 문제 제기임.
  - 미국 법원의 판단은 한국 서비스와 기업에도 영향을 줄 가능성이 큼.
  - 필요한 건 판결 기다리기가 아니라 학습 데이터 출처 추적, 저작권자의 사전 동의와 거부, 학습된 침해 구제수단을 명시한 새 법이라는 결론임.

---

## 기술 맥락

- 여기서 기술적으로 중요한 선택은 학습 데이터셋을 어떻게 만들고 추적하느냐예요. 왜냐면 대규모 언어 모델은 데이터 출처가 섞이는 순간, 나중에 어떤 저작물이 어떤 경로로 들어왔는지 되짚기가 굉장히 어려워지거든요.

- 북쓰리, 레드파자마, 허깅페이스 같은 경로가 문제 되는 이유는 각 단계가 기술적으로는 재사용과 공유처럼 보이지만, 법적으로는 원천 데이터의 권리 문제가 사라지지 않기 때문이에요. 오픈소스처럼 배포됐다고 해서 학습 권리까지 자동으로 생기는 건 아니에요.

- 모델 가중치가 쟁점이 되는 이유도 여기 있어요. 원본 텍스트 파일을 서버에서 삭제해도 학습 결과가 모델 안에 남아 있다면, 기존의 삭제나 폐기 명령만으로는 저작권 침해를 복구했다고 보기 애매해져요.

- 개발팀 입장에서는 데이터셋 카드, 라이선스 기록, 수집 경로, 제외 요청 처리 같은 거버넌스가 기술 부채가 아니라 제품 리스크예요. 나중에 모델을 다시 학습해야 하는 상황을 피하려면 처음부터 데이터 계보를 남겨야 해요.

## 핵심 포인트

- 북쓰리 데이터셋에는 소설, 시집, 논픽션 등 약 19만7000권의 책이 포함된 것으로 언급됨
- 스노우플레이크가 이 데이터를 내려받아 아크틱 LLM 학습에 사용했다는 의혹으로 작가 측 집단소송이 제기됨
- 글은 북쓰리, 레드파자마, 허깅페이스로 이어지는 경로를 불법 데이터가 합법처럼 보이게 되는 세탁 구조로 설명
- 쟁점은 원본 파일 삭제가 아니라 모델 가중치와 매개변수에 남은 학습 결과를 어떻게 볼 것인가임
- 한국도 AI 학습 데이터 출처와 저작권자 동의, 학습된 침해 구제수단을 법으로 다뤄야 한다는 제언

## 인사이트

AI 저작권 논쟁은 이제 데이터를 어디서 긁었느냐를 넘어, 이미 학습된 모델을 법적으로 어떻게 다룰 거냐로 옮겨가고 있음. 개발자 입장에서도 데이터셋 라이선스와 출처 관리는 나중에 법무팀이 알아서 할 부록이 아니라 모델 리스크의 핵심임.