---
title: "출판사들, 저커버그가 메타의 AI 저작권 침해를 직접 밀어붙였다고 소송"
published: 2026-05-05T18:04:25.000Z
canonical: https://jeff.news/article/2210
---
# 출판사들, 저커버그가 메타의 AI 저작권 침해를 직접 밀어붙였다고 소송

미국 주요 출판사 5곳과 작가 스콧 터로가 메타와 마크 저커버그를 상대로, Llama 학습을 위해 수백만 권의 책과 논문, 기사 등을 무단 복제했다며 집단소송을 냈어. 쟁점은 단순히 저작물을 학습에 썼느냐가 아니라, 저작권 보호 장치를 우회하고 불법 자료를 토렌트로 받았으며 라이선스 전략을 저커버그 지시로 중단했다는 주장임.

## 이번 소송의 핵심은 “학습했냐”보다 “어떻게 가져왔냐”임

- 미국 출판사 5곳과 작가 스콧 터로가 메타와 마크 저커버그를 상대로 새 저작권 소송을 냄
  - 참여한 출판사는 Hachette, Macmillan, McGraw Hill, Elsevier, Cengage임
  - 사건은 5월 5일 미국 뉴욕 남부지방법원에 제기됨
  - 원고 측은 메타가 Llama 학습을 위해 수백만 권의 책, 논문, 기사 등 저작물을 불법 복제했다고 주장함

- 소장 표현이 꽤 세다. 메타가 AI 군비 경쟁에서 이기려고 “move fast and break things”를 그대로 저작권 영역에 적용했다는 식임
  - 원고 측은 메타가 악명 높은 해적 사이트에서 저작권 책과 학술 논문을 토렌트로 받았다고 주장함
  - 또 사실상 인터넷 전체에 가까운 무단 웹 스크랩 자료를 내려받았다고도 주장함
  - 그렇게 확보한 자료를 여러 번 복제해 수십억 달러 규모의 생성형 AI 시스템인 Llama 학습에 썼다는 게 소송의 뼈대임

> [!IMPORTANT]
> 이 소송의 포인트는 “AI가 저작물을 학습하면 무조건 불법인가”가 아님. 원고 측은 메타가 해적 자료를 알고도 받았고, 저작권 관리 정보를 제거했으며, 라이선스 대신 공정 이용 전략으로 가기로 했다고 주장함.

## 메타는 공정 이용으로 맞서겠다는 입장

- 메타 측은 강하게 반박함
  - 메타 대변인은 AI가 개인과 기업의 혁신, 생산성, 창의성을 이끌고 있다고 말함
  - 또 법원이 저작권 자료를 AI 학습에 쓰는 것이 공정 이용에 해당할 수 있다고 판단해 왔다고 주장함
  - 이번 소송에도 적극적으로 맞서겠다는 입장임

- 실제로 작가들이 AI 기업을 상대로 낸 저작권 소송에서 패한 사례도 있음
  - 2025년 6월, 미국 연방 판사는 사라 실버먼과 주노 디아스 등 작가 13명이 메타를 상대로 낸 청구를 기각함
  - 당시 판사는 메타가 약 20만 권 규모의 책 데이터셋을 Llama 학습에 사용한 것이 공정 이용이라고 봄
  - 그래서 이번 사건은 원고가 단순 학습 사용보다 더 구체적인 “불법 취득과 은폐” 쪽으로 공격하는 모양새임

## 저커버그 개인 지시 주장이 소송의 화약고임

- 원고 측은 저커버그가 침해를 개인적으로 승인하고 장려했다고 주장함
  - 소장에는 메타가 저작권 관리 정보(CMI)를 제거해 학습 출처를 숨기고 무단 사용을 쉽게 만들었다는 주장도 들어 있음
  - 메타가 저작물 라이선스 구매를 검토하다가 저커버그에게 사안이 올라간 뒤 전략을 멈췄다는 내용도 포함됨

- 구체적인 숫자도 등장함
  - 소장에 따르면 메타는 2023년 1월부터 4월까지 데이터셋 라이선스 예산을 최대 2억 달러까지 늘리는 방안을 논의함
  - 하지만 2023년 4월 초 라이선스 전략을 갑자기 중단했다고 원고는 주장함
  - 한 메타 직원은 “책 한 권이라도 라이선스하면 공정 이용 전략에 기대기 어려워진다”는 취지로 말했다고 소장에 적힘

- 원고 측은 메타가 라이선스 시장의 존재를 몰랐던 게 아니라고 봄
  - 메타는 2022년에 아프리카 언어 도서 출판사들과 제한된 학습 세트용 라이선스 4건을 체결했다고 소장에 나옴
  - Fox News, CNN, USA Today 같은 주요 뉴스 출판사와도 라이선스 계약을 맺었다는 주장도 포함됨
  - 즉 “라이선스라는 선택지를 알고도 다른 길을 택했다”는 논리임

## 267TB와 LibGen 메모가 꽤 치명적인 디테일로 등장함

- 소장에는 메타 내부에서 LibGen 사용의 법적 위험을 논의했다는 주장도 있음
  - 2023년 12월 13일, 메타 직원들이 LibGen 사용 리스크 관련 메모를 내부 공유했다고 원고는 주장함
  - 그 메모는 LibGen을 “해적판임을 아는 데이터셋”으로 묘사했고, 학습에 쓴 LibGen 데이터셋 사용 사실을 공개하지 않겠다는 취지의 내용도 있었다고 함

- 원고 측이 제시한 규모는 267TB 이상임
  - 소장에 따르면 저커버그와 다른 메타 임원들이 267TB가 넘는 해적 자료 토렌트를 승인하고 지시함
  - 원고는 이 규모가 수억 개 출판물에 해당하고, 미국 의회도서관 전체 인쇄 컬렉션보다 여러 배 크다고 주장함
  - 숫자만 보면 “몇 권 몰래 썼다”가 아니라 산업 단위 데이터 조달 문제로 커지는 그림임

> [!WARNING]
> 생성형 AI 학습 데이터에서 출처 추적과 라이선스 판단을 대충 넘기면, 나중에 모델 품질 문제가 아니라 회사 전체의 법적 리스크로 돌아올 수 있음. 특히 내부 메모와 예산 논의는 소송에서 그대로 맥락 증거가 될 수 있음.

- 원고는 Llama가 학습 저작물의 대체재를 대량 생성한다고도 주장함
  - 원문 또는 거의 원문에 가까운 복제물, 학술 교재의 대체 챕터, 유명 소설과 논문의 요약과 변형본이 예시로 제시됨
  - 창작 요소를 베낀 저품질 모방물이나 권리자에게만 허용된 파생 저작물도 생성된다고 주장함
  - 특정 작가의 표현 방식과 창의적 선택을 흉내 내도록 Llama가 출력한다는 주장도 포함됨

---

## 기술 맥락

- 이번 사건에서 개발자에게 중요한 건 모델 학습이 법적으로 허용되느냐 하나만이 아니에요. 어떤 데이터셋을 어디서 받았고, 라이선스 검토를 누가 멈췄고, 내부에서 위험을 어떻게 기록했는지가 전부 모델 개발 프로세스의 일부로 취급될 수 있거든요.

- 메타가 공정 이용을 주장하는 이유는 대규모 언어 모델(LLM) 학습이 기존 저작물을 그대로 서비스하는 게 아니라 통계적 패턴을 학습한다는 논리에 기대기 때문이에요. 하지만 원고는 해적 사이트, 저작권 관리 정보 제거, 267TB 토렌트 같은 취득 과정의 문제를 앞세워 그 방어선을 흔들려는 거예요.

- 라이선스 예산 2억 달러 논의가 중요한 이유도 여기에 있어요. 회사가 합법 조달 경로를 검토했다는 사실은 “몰랐다”는 방어를 약하게 만들 수 있고, 반대로 왜 그 전략을 중단했는지가 핵심 쟁점이 될 수 있어요.

- AI 팀 입장에서는 데이터 거버넌스가 더 이상 문서팀이나 법무팀만의 일이 아니에요. 학습 파이프라인에 들어가는 데이터 출처, 권리 상태, 제거 요청 대응, 내부 승인 기록까지 재현 가능하게 남겨야 나중에 모델을 방어할 수 있어요.

## 핵심 포인트

- Hachette, Macmillan, McGraw Hill, Elsevier, Cengage와 스콧 터로가 소송 제기
- 원고 측은 메타가 Llama 학습을 위해 수백만 개 저작물을 무단 복제했다고 주장
- 소장에는 267TB가 넘는 불법 자료 토렌트와 LibGen 사용 관련 내부 메모 주장이 포함
- 메타는 저작물 학습이 공정 이용에 해당할 수 있다며 적극 대응 방침

## 인사이트

AI 학습 데이터 소송의 전선이 “학습 자체가 공정 이용인가”에서 “데이터를 어떻게 구했나”로 더 날카롭게 이동하는 분위기임. 모델 개발팀 입장에서는 데이터 출처, 라이선스 예산, 내부 의사결정 기록이 나중에 그대로 법적 리스크가 될 수 있다는 경고로 읽힘.