인터넷 아카이브 차단으로는 AI를 막을 수 없음 — 웹의 역사만 지워질 뿐
요약
기사 전체 정리
신문사가 인터넷 아카이브를 차단하기 시작했음
EFF가 경고를 울리고 있음. 뉴욕타임스(NYT)가 인터넷 아카이브의 크롤링을 차단하기 시작했고, 가디언 등 다른 언론사도 뒤따르는 분위기임. robots.txt를 넘어서는 기술적 조치까지 동원 중
인터넷 아카이브의 Wayback Machine에는 현재 1조 개 이상의 웹페이지가 보존되어 있고, 기자, 연구자, 법원이 매일 사용함. 위키피디아만 해도 249개 언어로 260만 개 이상의 뉴스 기사를 아카이브 링크로 참조하고 있음
기사는 편집되고, 수정되고, 삭제됨 — 때로는 공개적으로, 때로는 조용히. 인터넷 아카이브가 원래 기사가 어떻게 출판되었는지 볼 수 있는 유일한 출처인 경우가 많음. 이걸 차단하면 역사 기록 자체가 사라지는 거임
왜 차단하나? AI 때문임
언론사 측 논리: AI 회사들이 뉴스 콘텐츠를 스크래핑해서 모델 훈련에 쓰는 걸 통제하고 싶음. NYT를 비롯한 여러 언론사가 이미 AI 회사를 상대로 저작권 소송 중
하지만 EFF의 반론: 인터넷 아카이브는 상업적 AI 시스템을 만들지 않음. 역사 보존이 미션임. AI 접근을 통제하겠다고 비영리 아카이브까지 차단하는 건 "아카이브가 시작하지도 않은 싸움" 때문에 수십 년의 역사 문서를 태우는 것과 같음
법적으로는 아카이빙이 보호받음
검색 가능하게 만들기 위해 복사하는 행위는 이미 확립된 공정 이용(fair use)임. Google이 전체 도서를 복사해서 검색 가능한 데이터베이스를 만든 것도 법원이 공정 이용으로 인정했음
EFF 입장: AI 학습에 대한 법적 분쟁은 법원에서 해결해야 할 문제지만, 그 싸움의 과정에서 공공 기록을 희생시키는 것은 "심대하고 돌이킬 수 없는 실수"가 될 것
주의
> 주요 언론사가 인터넷 아카이브 크롤링을 차단하면, 미래 연구자들은 웹의 역사 기록 중 상당 부분이 그냥 사라져버린 걸 발견하게 될 수 있음
댓글
댓글
댓글을 불러오는 중...