본문으로 건너뛰기
0
r/jeffnews HN 약 3분

인터넷 아카이브 차단으로는 AI를 막을 수 없음 — 웹의 역사만 지워질 뿐

general

요약

EFF 경고: NYT 등 주요 언론사가 인터넷 아카이브 크롤링을 차단하기 시작함. AI 학습 통제가 목적이지만, 비영리 아카이브까지 차단하면 웹의 역사 기록이 돌이킬 수 없이 사라질 위험.

기사 전체 정리

신문사가 인터넷 아카이브를 차단하기 시작했음

  • EFF가 경고를 울리고 있음. 뉴욕타임스(NYT)가 인터넷 아카이브의 크롤링을 차단하기 시작했고, 가디언 등 다른 언론사도 뒤따르는 분위기임. robots.txt를 넘어서는 기술적 조치까지 동원 중

  • 인터넷 아카이브의 Wayback Machine에는 현재 1조 개 이상의 웹페이지가 보존되어 있고, 기자, 연구자, 법원이 매일 사용함. 위키피디아만 해도 249개 언어로 260만 개 이상의 뉴스 기사를 아카이브 링크로 참조하고 있음

  • 기사는 편집되고, 수정되고, 삭제됨 — 때로는 공개적으로, 때로는 조용히. 인터넷 아카이브가 원래 기사가 어떻게 출판되었는지 볼 수 있는 유일한 출처인 경우가 많음. 이걸 차단하면 역사 기록 자체가 사라지는 거임

왜 차단하나? AI 때문임

  • 언론사 측 논리: AI 회사들이 뉴스 콘텐츠를 스크래핑해서 모델 훈련에 쓰는 걸 통제하고 싶음. NYT를 비롯한 여러 언론사가 이미 AI 회사를 상대로 저작권 소송 중

  • 하지만 EFF의 반론: 인터넷 아카이브는 상업적 AI 시스템을 만들지 않음. 역사 보존이 미션임. AI 접근을 통제하겠다고 비영리 아카이브까지 차단하는 건 "아카이브가 시작하지도 않은 싸움" 때문에 수십 년의 역사 문서를 태우는 것과 같음

법적으로는 아카이빙이 보호받음

  • 검색 가능하게 만들기 위해 복사하는 행위는 이미 확립된 공정 이용(fair use)임. Google이 전체 도서를 복사해서 검색 가능한 데이터베이스를 만든 것도 법원이 공정 이용으로 인정했음

  • EFF 입장: AI 학습에 대한 법적 분쟁은 법원에서 해결해야 할 문제지만, 그 싸움의 과정에서 공공 기록을 희생시키는 것은 "심대하고 돌이킬 수 없는 실수"가 될 것

⚠️주의

> 주요 언론사가 인터넷 아카이브 크롤링을 차단하면, 미래 연구자들은 웹의 역사 기록 중 상당 부분이 그냥 사라져버린 걸 발견하게 될 수 있음

핵심 포인트

  • NYT가 robots.txt 넘어서는 기술적 조치로 아카이브 크롤링 차단
  • Wayback Machine에 1조+ 웹페이지 보존, 위키피디아가 260만+ 기사 참조
  • 검색·아카이빙 위한 복사는 확립된 공정 이용
  • AI 싸움 때문에 공공 기록을 희생시키면 돌이킬 수 없는 실수

인사이트

AI 저작권 분쟁의 부수적 피해가 비영리 아카이브에까지 미치고 있음. 기술 커뮤니티가 주시해야 할 사안.

댓글

댓글

댓글을 불러오는 중...

general

버티컬 SaaS 만들려고 해충방제 기사 취직했던 썰.txt

SaaS 창업 아이디어 검증하려고 실제로 해충방제 업체에 취직해버린 미친 사람 등장. 13일 만에 자격증 따고 21일 만에 $30k ARR 클로징하는 레전드 행보. 결국 직접 회사 인수해서 처음부터 만들겠다는 결론.

general

Apple, 버그 안 고치고 '확인해봐' 요청 후 닫아버리는 거 실화?

개발자가 3년 전에 신고한 버그를 Apple이 묵묵부답으로 방치하다가, 갑자기 베타 버전에서 '버그 고쳐졌는지 확인해줘'라고 요청함. 근데 실제론 안 고쳤고, 확인 안 하면 그냥 닫겠다고 협박한 레전드 상황. Hacker News 터지고 나서야 Apple이 반응했는데 그것도 별 쓸모없는 sysdiagnose 요청임 ㅋㅋ

general

미국의 이란 전쟁, 왜 처음부터 망한 도박이었나 - 군사사학자 분석

군사사학자 브렛 데버로우가 미국의 이란 전쟁을 전략적 관점에서 분석했는데 결론은 '개망한 도박'임. 초기 정권붕괴 시나리오는 실패했고, 호르무즈 해협이 사실상 봉쇄되면서 미국은 진퇴양난에 빠진 상황. 전술적으론 이기고 있지만 전략적으론 얻은 게 없다는 게 핵심 주장임.

general

충돌 사고 테슬라 부품으로 내 책상 위에 Model 3 컴퓨터 올려놓기 ㄷㄷ

테슬라 버그바운티 참여하려고 eBay에서 사고 차량 부품 긁어모아서 Model 3 MCU+터치스크린을 책상 위에서 부팅시키는 데 성공한 개발자 이야기임. 케이블 하나 구하려다 PCB 태워먹고, 수리하고, 결국 차량 전체 배선 하네스까지 구매하는 험난한 여정 ㅋㅋ

general

AI 코딩 에이전트 때문에 소프트웨어가 개판 됐는데 아무도 모름

코딩 에이전트 등장 1년 만에 소프트웨어 품질이 심각하게 떨어지고 있다는 경고. 에이전트한테 다 맡기다 보니 코드베이스가 감당 안 되는 복잡성 덩어리로 변해가는 중. 필자는 '속도 좀 줄이고 인간이 다시 주도권 잡아야 함'이라고 주장함.