생성형 AI 저작권 소송, 핵심은 데이터 삭제가 아니라 학습된 침해다

ai-ml 2026-05-24 약 5분

 tags

#copyright #llm #dataset #fair-use #governance

vote

북마크

북쓰리 데이터셋과 스노우플레이크의 아크틱 모델을 둘러싼 미국 집단소송을 통해 생성형 AI 학습 데이터의 저작권 문제가 다시 터졌다. 글은 불법 복제물을 지우는 기존 저작권법 방식으로는 모델 가중치 안에 남은 학습 결과를 해결하기 어렵다고 본다. 한국도 데이터 출처 추적, 사전 동의와 거부, 학습된 침해 구제수단을 서둘러야 한다는 주장이다.

1
북쓰리 데이터셋에는 소설, 시집, 논픽션 등 약 19만7000권의 책이 포함된 것으로 언급됨
2
스노우플레이크가 이 데이터를 내려받아 아크틱 LLM 학습에 사용했다는 의혹으로 작가 측 집단소송이 제기됨
3
글은 북쓰리, 레드파자마, 허깅페이스로 이어지는 경로를 불법 데이터가 합법처럼 보이게 되는 세탁 구조로 설명
4
쟁점은 원본 파일 삭제가 아니라 모델 가중치와 매개변수에 남은 학습 결과를 어떻게 볼 것인가임
5
한국도 AI 학습 데이터 출처와 저작권자 동의, 학습된 침해 구제수단을 법으로 다뤄야 한다는 제언

이번 글의 출발점은 북쓰리라는 데이터셋임. 소설, 시집, 논픽션까지 포함해 약 19만7000권의 책이 담겨 있었다는 게 핵심 주장임.
- 이 데이터가 허깅페이스에 오픈소스처럼 올라왔고, 스노우플레이크가 내려받아 자사 AI인 아크틱 LLM 학습에 썼다는 의혹이 제기됨.
- 결국 작가 다리우스 제임스가 작가들을 대표해 미국 몬테나 연방지방법원에 배심원 재판을 요구하는 집단소송을 냄.
글쓴이는 이 구조를 데이터 세탁에 가깝게 봄. 불법 복제된 책이 북쓰리라는 이름으로 포장되고, 다시 레드파자마 같은 오픈소스 프로젝트를 거치며 합법 데이터처럼 보인다는 것.
- 레드파자마는 메타 LLaMA 모델을 재현하기 위해 1조 개 이상의 토큰으로 구성된 거대 데이터를 구축한 프로젝트로 언급됨.
- 허깅페이스에서 클릭 한 번으로 받을 수 있게 되는 순간, 마지막 이용자는 불법의 기원을 모르는 척하기 쉬워짐.
스노우플레이크 쪽 방어 논리는 대충 예상 가능함. 공정이용, 기술 발전을 위한 변형적 이용, 일시적 복제 같은 주장이 나올 수 있다는 얘기임.
- 하지만 글은 아크틱 LLM이 무료 실험물이 아니라 이윤을 목적으로 하는 상품이라는 점을 짚음.
- 다운로드, 저장, 전처리, 학습 과정에서 데이터가 계속 복제됐기 때문에 일시적 복제라는 말도 설득력이 약하다고 봄.

❗중요

> 이 글에서 제일 센 개념은 학습된 침해임. 파일을 삭제해도 모델 가중치와 매개변수 안에 저작물의 흔적이 남는다면, 기존 저작권법의 삭제 명령만으로는 문제가 끝나지 않는다는 주장임.

기존 저작권법은 물리적 복제물을 상정하고 만들어진 면이 큼. 불법 CD를 압수하거나 해적판 책을 폐기하면 침해물이 사라진다는 식임.
- 그런데 AI 모델은 책 파일을 지워도 이미 학습한 패턴이 가중치와 수십억 개 매개변수 안에 남을 수 있음.
- 그래서 법원이 침해 복제물 폐기를 명령하더라도 모델 자체를 어떻게 할지가 진짜 어려운 문제로 남음.
글은 AI 기업들이 리스크를 몰랐던 게 아니라고 봄. 일단 모델을 만들고 시장을 장악한 뒤, 나중에 손해배상으로 대응할 수 있다고 계산했을 가능성을 지적함.
- 미국에서 AI 기업을 상대로 한 소송이 이미 60번째라는 숫자도 그래서 중요함.
- 개별 사건 하나가 아니라 산업 전체의 누적된 경고로 봐야 한다는 톤임.
한국도 남의 일이 아님. 국내 AI 기업들이 쓰는 데이터 출처가 투명하고 합법적인지 따져야 한다는 문제 제기임.
- 미국 법원의 판단은 한국 서비스와 기업에도 영향을 줄 가능성이 큼.
- 필요한 건 판결 기다리기가 아니라 학습 데이터 출처 추적, 저작권자의 사전 동의와 거부, 학습된 침해 구제수단을 명시한 새 법이라는 결론임.

기술 맥락

여기서 기술적으로 중요한 선택은 학습 데이터셋을 어떻게 만들고 추적하느냐예요. 왜냐면 대규모 언어 모델은 데이터 출처가 섞이는 순간, 나중에 어떤 저작물이 어떤 경로로 들어왔는지 되짚기가 굉장히 어려워지거든요.
북쓰리, 레드파자마, 허깅페이스 같은 경로가 문제 되는 이유는 각 단계가 기술적으로는 재사용과 공유처럼 보이지만, 법적으로는 원천 데이터의 권리 문제가 사라지지 않기 때문이에요. 오픈소스처럼 배포됐다고 해서 학습 권리까지 자동으로 생기는 건 아니에요.
모델 가중치가 쟁점이 되는 이유도 여기 있어요. 원본 텍스트 파일을 서버에서 삭제해도 학습 결과가 모델 안에 남아 있다면, 기존의 삭제나 폐기 명령만으로는 저작권 침해를 복구했다고 보기 애매해져요.
개발팀 입장에서는 데이터셋 카드, 라이선스 기록, 수집 경로, 제외 요청 처리 같은 거버넌스가 기술 부채가 아니라 제품 리스크예요. 나중에 모델을 다시 학습해야 하는 상황을 피하려면 처음부터 데이터 계보를 남겨야 해요.

AI 저작권 논쟁은 이제 데이터를 어디서 긁었느냐를 넘어, 이미 학습된 모델을 법적으로 어떻게 다룰 거냐로 옮겨가고 있음. 개발자 입장에서도 데이터셋 라이선스와 출처 관리는 나중에 법무팀이 알아서 할 부록이 아니라 모델 리스크의 핵심임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

생성형 AI 저작권 소송, 핵심은 데이터 삭제가 아니라 학습된 침해다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

생성형 AI 저작권 소송, 핵심은 데이터 삭제가 아니라 학습된 침해다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사