---
title: "AI 시대에 갑자기 논쟁의 중심이 된 robots.txt — 30년 된 신사협정의 위기"
published: 2025-12-29T23:30:14.000Z
canonical: https://jeff.news/article/1298
---
# AI 시대에 갑자기 논쟁의 중심이 된 robots.txt — 30년 된 신사협정의 위기

1994년에 만들어진 robots.txt는 법적 강제력 없이 선의에 기반한 신사협정이었음. 검색엔진과는 Win-Win이었지만 AI 크롤러는 가져가기만 하고 돌려주는 게 없어 이 균형이 깨지고 있음.

- 30년간 인터넷의 질서를 유지해온 작은 텍스트 파일 robots.txt가 AI 시대에 접어들면서 심각한 도전에 직면하고 있음. 법적 강제력도 없고 기술적 권한도 없는 이 파일이 사실상 "인터넷의 미니 헌법" 역할을 해왔다는 거임

## robots.txt의 탄생

- 1994년, 소프트웨어 엔지니어 마르틴 코스터(Martijn Koster)가 WWW-Talk 메일링 리스트(팀 버너스리, 마크 안드리센이 참여하던)에서 제안한 것이 시작
- 당시 문제는 단순했음: 봇들이 웹사이트를 과도하게 크롤링하면 서버가 터지고 전화 요금이 폭증. 그래서 "이 봇은 우리 사이트에 오지 마"라고 선언할 수 있는 표준을 만든 거임
- 코스터의 철학은 명확했음: "로봇이 좋으냐 나쁘냐 논쟁은 의미 없다. 이미 존재하니까. 문제를 최소화하고 이점을 극대화하는 시스템을 설계하자"
- 파일 이름도 원래 `RobotsNotWanted.txt`였다가 `robots.txt`로 바뀜. 그리고 30년간 잘 작동했음

## 구글과의 거래는 Win-Win이었다

- 구글봇(Googlebot)이 사이트를 크롤링하면 검색 결과에 노출시켜줌. 대역폭을 좀 쓰는 대신 트래픽을 보내주는 명확한 교환 관계
- Medium CEO 토니 스터블바인: "구글은 우리의 가장 중요한 스파이더임. 우리 페이지를 다 크롤링하게 해주고, 대신 상당한 트래픽을 받음. 윈윈이라고 다들 생각한다"
- 구글은 대체로 robots.txt의 모범 시민이었음. 구글 검색 옹호자 존 뮬러: "잘 알려진 검색 엔진들은 거의 다 준수함. 사람들을 귀찮게 하고 싶지 않으니까"

## AI가 등식을 깨뜨렸다

- AI 크롤러는 기존 검색과 근본적으로 다름. 데이터를 가져가서 모델을 학습시키는데, 원본 사이트로 트래픽을 돌려보내지 않음. **가져가기만 하고 돌려주는 게 없는 구조**
- Medium은 AI 크롤러를 차단하면서 "AI 회사들이 작가들의 가치를 빨아들여 인터넷 독자들에게 스팸을 뿌리고 있다"고 선언
- BBC도 "허락 없이 BBC 데이터를 생성형 AI 모델 학습에 스크래핑하는 것은 공익에 부합하지 않는다"며 GPTBot 차단
- 뉴욕타임스는 GPTBot을 차단한 뒤 OpenAI를 상대로 소송까지 제기함

> [!IMPORTANT]
> Ben Welsh(로이터)의 조사에 따르면 1,156개 언론사 중 606개(52%)가 GPTBot을 차단함. 상위 1,000개 사이트 중 306개가 GPTBot을, 85개가 Google-Extended를, 28개만 anthropic-ai를 차단 — OpenAI가 집중적으로 타겟이 되고 있는 상황

## 두더지 잡기 게임

- GPTBot이 주요 악당이 된 이유 중 하나는 OpenAI가 자처한 면이 있음. 차단 방법을 공개하고 봇이 자신을 명확히 식별하도록 만들었지만, 이건 **이미 모델을 학습시킨 뒤에** 한 일임
- 문제는 자신을 숨기는 크롤러들임. 많은 봇이 정체를 감추고 크롤링하는데, 트래픽 바다에서 이걸 찾는 건 "건초더미에서 바늘 찾기"
- CCBot(Common Crawl)은 검색용이지만 OpenAI, 구글 등이 학습 데이터로도 씀. 마이크로소프트의 Bingbot은 검색 크롤러이자 AI 크롤러를 겸함. 경계가 모호함
- robots.txt는 법적 문서가 아님 — 30년이 지난 지금도 모든 당사자의 선의에 의존하고 있음. 인터넷 아카이브는 2017년에 아예 "우리는 더 이상 robots.txt를 따르지 않겠다"고 선언해버림

- 구글은 robots.txt가 "오래된 표준"이라며 AI와 연구 용도에 맞는 새로운 기계 판독 가능 제어 수단을 탐색하자고 제안 중
- AI가 검색의 미래라면 AI 크롤러를 차단하는 건 단기적 승리지만 장기적 재앙이 될 수도 있음. 웹사이트들이 "AI 혁명에 굴복할 것인가, 맞서 싸울 것인가"를 매일 결정해야 하는 시대가 된 거임

## 핵심 포인트

- 언론사 52%가 GPTBot 차단, 하지만 다른 AI 봇 차단율은 훨씬 낮음
- robots.txt는 법적 문서가 아니어서 무시해도 제재 수단이 마땅치 않음
- AI가 검색의 미래라면 AI 크롤러 차단이 장기적으로 역효과일 수도

## 인사이트

robots.txt 이슈는 결국 '인터넷의 사회 계약이 AI 시대에도 유효한가'라는 근본 질문임. 웹 생태계의 규칙을 새로 쓸 때가 온 것.
