---
title: "인터넷 아카이브 차단으로는 AI를 막을 수 없음 — 웹의 역사만 지워질 뿐"
published: 2026-03-20T21:59:43.000Z
canonical: https://jeff.news/article/809
---
# 인터넷 아카이브 차단으로는 AI를 막을 수 없음 — 웹의 역사만 지워질 뿐

EFF 경고: NYT 등 주요 언론사가 인터넷 아카이브 크롤링을 차단하기 시작함. AI 학습 통제가 목적이지만, 비영리 아카이브까지 차단하면 웹의 역사 기록이 돌이킬 수 없이 사라질 위험.

## 신문사가 인터넷 아카이브를 차단하기 시작했음

- EFF가 경고를 울리고 있음. 뉴욕타임스(NYT)가 인터넷 아카이브의 크롤링을 차단하기 시작했고, 가디언 등 다른 언론사도 뒤따르는 분위기임. robots.txt를 넘어서는 기술적 조치까지 동원 중

- 인터넷 아카이브의 Wayback Machine에는 현재 **1조 개 이상의 웹페이지**가 보존되어 있고, 기자, 연구자, 법원이 매일 사용함. 위키피디아만 해도 249개 언어로 **260만 개 이상의 뉴스 기사**를 아카이브 링크로 참조하고 있음

- 기사는 편집되고, 수정되고, 삭제됨 — 때로는 공개적으로, 때로는 조용히. 인터넷 아카이브가 원래 기사가 어떻게 출판되었는지 볼 수 있는 **유일한 출처**인 경우가 많음. 이걸 차단하면 역사 기록 자체가 사라지는 거임

## 왜 차단하나? AI 때문임

- 언론사 측 논리: AI 회사들이 뉴스 콘텐츠를 스크래핑해서 모델 훈련에 쓰는 걸 통제하고 싶음. NYT를 비롯한 여러 언론사가 이미 AI 회사를 상대로 저작권 소송 중

- 하지만 EFF의 반론: 인터넷 아카이브는 상업적 AI 시스템을 만들지 않음. 역사 보존이 미션임. AI 접근을 통제하겠다고 비영리 아카이브까지 차단하는 건 "아카이브가 시작하지도 않은 싸움" 때문에 수십 년의 역사 문서를 태우는 것과 같음

## 법적으로는 아카이빙이 보호받음

- 검색 가능하게 만들기 위해 복사하는 행위는 이미 확립된 공정 이용(fair use)임. Google이 전체 도서를 복사해서 검색 가능한 데이터베이스를 만든 것도 법원이 공정 이용으로 인정했음

- EFF 입장: AI 학습에 대한 법적 분쟁은 법원에서 해결해야 할 문제지만, 그 싸움의 과정에서 공공 기록을 희생시키는 것은 "심대하고 돌이킬 수 없는 실수"가 될 것

> [!WARNING]
> 주요 언론사가 인터넷 아카이브 크롤링을 차단하면, 미래 연구자들은 웹의 역사 기록 중 상당 부분이 그냥 사라져버린 걸 발견하게 될 수 있음

## 핵심 포인트

- NYT가 robots.txt 넘어서는 기술적 조치로 아카이브 크롤링 차단
- Wayback Machine에 1조+ 웹페이지 보존, 위키피디아가 260만+ 기사 참조
- 검색·아카이빙 위한 복사는 확립된 공정 이용
- AI 싸움 때문에 공공 기록을 희생시키면 돌이킬 수 없는 실수

## 인사이트

AI 저작권 분쟁의 부수적 피해가 비영리 아카이브에까지 미치고 있음. 기술 커뮤니티가 주시해야 할 사안.
