---
title: "인공지능 학습 데이터, 공짜로 긁어가도 되는가"
published: 2026-06-02T20:05:02.539Z
canonical: https://jeff.news/article/3619
---
# 인공지능 학습 데이터, 공짜로 긁어가도 되는가

인공지능 기업들이 뉴스, 백과사전, 공개 코드 같은 콘텐츠를 학습에 쓰면서 저작권 분쟁이 커지고 있어. 퍼플렉시티, 오픈AI, 깃허브 코파일럿 사례가 모두 같은 질문으로 이어져. 사실은 보호되지 않더라도, 표현과 데이터 구축 비용까지 공짜로 가져가도 되는지는 별개의 문제야.

- 인공지능이 내놓는 매끄러운 답변의 출처를 두고 저작권 싸움이 본격화되고 있음.
  - 사용자는 원문을 읽지 않아도 요약된 답을 얻지만, 그 원문을 취재하고 검증한 언론사에는 돈이 안 돌아간다는 문제임.
  - 핵심 질문은 단순함. 인공지능은 누구의 콘텐츠를 먹고 자라고, 그 값은 누가 내느냐는 것.

- 씨엔엔은 인공지능 검색 기업 퍼플렉시티를 저작권 침해로 제소함.
  - 주장에 따르면 퍼플렉시티는 씨엔엔 기사 1만7000여 건을 허락 없이 복제해 답변 생성에 사용함.
  - 퍼플렉시티의 반박은 “사실은 저작권으로 보호되지 않는다”는 논리임.
  - 이 말은 절반만 맞음. 사실 자체는 보호 대상이 아니지만, 사실을 취재하고 배열하고 표현한 결과물은 보호될 수 있음.

- 진짜 쟁점은 학습이라는 이름으로 대량 복제해도 되느냐임.
  - 인공지능 답변이 원문 방문을 대체하면 언론사의 광고·구독 수익 기반이 흔들림.
  - 미국 저작권법의 공정 이용 판단은 바로 이 지점에서 갈림. 학습이 새로운 사용인지, 원래 시장을 침해하는 대체재인지가 핵심임.

> [!IMPORTANT]
> “사실은 공짜”라는 주장과 “취재·검증·편집은 공짜가 아니다”라는 주장이 정면충돌하는 중임. 이 판례가 굳어지면 뉴스뿐 아니라 코드, 문서, 데이터셋 학습 관행까지 같이 흔들릴 수 있음.

- 전선은 이미 뉴스 업계 전체로 넓어짐.
  - 뉴욕타임스도 퍼플렉시티를 같은 법원에 제소함.
  - 뉴스코프, 시카고트리뷴, 브리태니커까지 가세했고 미국에서만 인공지능 저작권 분쟁이 90여 건에 이름.
  - 브리태니커는 오픈AI가 자사 자료 10만 건을 챗지피티 학습에 무단 사용했다고 주장함.

- 개발자에게 더 직접적인 사례는 깃허브 코파일럿임.
  - 코파일럿은 공개 코드를 대량 학습했고, 남의 코드를 거의 그대로 출력한 사례가 드러나 미국에서 집단소송으로 번짐.
  - 공개 저장소라고 해서 라이선스 조건이 사라지는 건 아님.
  - 생성된 코드가 기존 코드와 실질적으로 비슷하다면, 그 책임이 도구 제공자에게 있는지 사용자에게 있는지 애매해짐. 이게 진짜 찝찝한 부분임.

- 흥미로운 건 같은 회사들이 법정과 협상 테이블을 동시에 오간다는 점임.
  - 뉴스코프는 오픈AI와 5년간 최대 2억5000만 달러 규모의 콘텐츠 사용 계약을 맺음.
  - 뉴욕타임스는 오픈AI를 제소하면서도 아마존과는 라이선스 계약을 체결함.
  - 한쪽 손엔 소장, 다른 손엔 계약서. 꽤 현실적인 시장의 답임.

- 결국 데이터 가격을 누가 정하느냐의 싸움임.
  - 소송은 법원이 가격과 경계를 정하게 만드는 방식임.
  - 라이선스 계약은 기업들이 협상으로 가격을 정하는 방식임.
  - 어느 쪽이든 “학습 데이터는 공짜”라는 전제는 점점 버티기 어려워지고 있음.

- 개발팀도 남 얘기로 넘기기 어려움.
  - 사내에서 코드 생성 도구를 쓸 때 생성물의 출처, 라이선스, 보안 검토 프로세스를 무시하면 나중에 제품 리스크로 돌아올 수 있음.
  - 특히 오픈소스 라이선스가 강한 프로젝트와 유사한 코드가 섞이면 법무 검토가 필요한 상황이 생길 수 있음.

---
## 기술 맥락

- 이 논쟁에서 중요한 건 인공지능이 사실을 배웠느냐가 아니라 데이터를 어떻게 복제하고 활용했느냐예요. 모델 학습은 단순 열람이 아니라 대량 수집, 저장, 전처리, 학습 파이프라인을 거치기 때문에 저작권 문제가 더 커져요.

- 개발자에게는 깃허브 코파일럿 사례가 특히 현실적이에요. 공개 코드는 누구나 볼 수 있지만, 재사용 조건은 라이선스가 정하거든요. 생성된 코드가 기존 코드와 너무 비슷하면 “도구가 만들어줬다”는 말만으로 책임이 사라지지 않을 수 있어요.

- 기업들이 소송과 라이선스를 동시에 택하는 이유는 가격 기준이 아직 없기 때문이에요. 법원이 공정 이용 범위를 좁게 보면 학습 데이터 계약 시장이 커지고, 넓게 보면 인공지능 기업의 데이터 수집 관행이 더 힘을 얻을 수 있어요.

- 그래서 이 이슈는 콘텐츠 업계의 밥그릇 싸움으로만 보면 놓치는 게 많아요. 앞으로 사내 문서, 고객 데이터, 코드 저장소를 모델 학습에 넣을 때 어떤 권리와 보상을 붙일지 정하는 선례가 될 수 있거든요.

## 핵심 포인트

- 씨엔엔은 퍼플렉시티가 기사 1만7000여 건을 무단 복제했다고 주장함
- 미국 내 인공지능 저작권 분쟁은 90여 건으로 확산됨
- 뉴스코프는 오픈AI와 5년 최대 2억5000만 달러 규모 계약을 맺음
- 공개 코드 학습과 라이선스 책임도 같은 저작권 논쟁에 포함됨

## 인사이트

이 문제는 법조계만의 얘기가 아니라 개발자에게도 바로 닿는다. 코드 생성 도구가 학습한 코드의 라이선스, 출처, 재사용 책임이 불명확하면 결국 제품을 배포하는 팀이 리스크를 떠안을 수 있다.