---
title: "클라우드플레어, 구글봇에 칼 뺐다…검색 크롤러랑 AI 학습 봇 분리하라는 압박"
published: 2026-07-03T07:05:05.437Z
canonical: https://jeff.news/article/4560
---
# 클라우드플레어, 구글봇에 칼 뺐다…검색 크롤러랑 AI 학습 봇 분리하라는 압박

클라우드플레어가 9월 15일부터 광고가 붙은 페이지에서 검색과 AI 학습을 동시에 수행하는 혼합형 크롤러를 기본 차단하겠다고 밝혔다. 핵심 타깃은 검색 색인, AI 오버뷰, AI 모드에 구글봇 하나를 쓰는 구글식 구조다. 웹사이트 운영자가 검색 노출을 포기하지 않고도 AI 학습 수집은 거부할 수 있게 하겠다는 흐름이라, 웹 콘텐츠 생태계의 돈 흐름과 직결된다.

- 클라우드플레어가 구글식 혼합형 크롤러에 제대로 브레이크를 걸기 시작함
  - 9월 15일부터 광고가 붙은 페이지에서는 검색 색인과 AI 학습을 동시에 수행하는 봇을 기본 차단하겠다고 발표함
  - 클라우드플레어는 전 세계 웹사이트 약 20%가 쓰는 인프라라서, 이 기본값 변경은 그냥 한 회사 정책 변경 수준이 아님

- 핵심은 “검색은 허용하고 싶은데, AI 학습까지 공짜로 주긴 싫다”는 웹사이트 운영자의 딜레마임
  - 지금 구글은 검색 색인, AI 오버뷰, AI 모드에 모두 구글봇 하나를 사용함
  - 사이트 운영자 입장에서는 구글봇을 막으면 검색 결과에서도 사라질 수 있음
  - 결국 “검색 유입을 포기할래, 아니면 AI 학습 수집까지 받아들일래?”라는 꽤 빡센 양자택일이 됨

- 클라우드플레어는 봇 정책을 검색, 에이전트, 학습 세 가지로 쪼갰음
  - 예전에는 AI 봇을 통째로 허용하거나 차단하는 식이라 선택지가 너무 거칠었음
  - 이제는 검색용 봇은 허용하고, 모델 학습용 봇은 막는 식의 정책이 가능해지는 방향임
  - 클라우드플레어가 말하는 목표는 혼합형 크롤러를 용도별로 분리하도록 압박하는 것임

> [!IMPORTANT]
> 클라우드플레어가 문제 삼는 건 AI가 웹을 읽는 행위 자체가 아니라, 검색 유입이라는 보상은 줄이면서 콘텐츠 수집만 늘어나는 구조임.

- 광고가 붙은 페이지부터 막겠다는 기준도 꽤 현실적임
  - 광고 페이지는 사람이 방문해서 읽고, 그 방문으로 수익을 내는 구조라는 신호임
  - AI가 그 내용을 가져가 자체 답변에 써버리면 사용자는 원문 사이트에 갈 이유가 줄어듦
  - 반대로 기업 소개, 기술 문서, 오픈소스 문서처럼 광고가 없는 페이지는 검색 노출이나 브랜드 인지가 더 중요할 수 있어서 일괄 차단하면 손해가 날 수 있음

- 숫자를 보면 왜 퍼블리셔들이 예민해졌는지 바로 이해됨
  - 구글은 크롤 대비 유입 비율이 약 14:1임. 14번 크롤링할 때 방문자 1명을 보내주는 셈임
  - 오픈AI는 1700:1, 앤트로픽은 7만3000:1로 측정됨
  - 말이 좋아 크롤링이지, 퍼블리셔 입장에서는 서버 자원 쓰고 콘텐츠 내주는데 돌아오는 트래픽은 거의 없는 구조임

- 더 골치 아픈 건 AI 크롤러가 같은 페이지를 계속 긁는다는 점임
  - 클라우드플레어 자체 분석에 따르면 AI 크롤러 트래픽의 50% 이상이 변경되지 않은 페이지를 반복 수집하는 데 쓰임
  - 퍼블리셔 서버와 대역폭만 낭비되는 셈이라, 작은 미디어나 독립 운영 사이트에는 비용 압박으로 이어질 수 있음

- 웹 트래픽의 중심도 이미 사람에서 봇으로 넘어감
  - 클라우드플레어 레이더 기준 2026년 전 세계 웹 HTTP 요청의 57.5%가 봇 트래픽임
  - 사람 트래픽은 42.5%라서, 웹 요청의 다수는 이미 사람이 아니라 자동화 시스템이 만들고 있음
  - AI 크롤러 요청 중 모델 학습 목적은 51.8%, 혼합 용도는 35.7%, 순수 검색 목적은 9.3%에 그침

- 클라우드플레어는 2027년 중반까지 혼합형 크롤러 트래픽 비중을 0%로 줄이겠다는 목표를 냈음
  - 이게 성공하면 검색 봇, AI 에이전트 봇, 학습 봇을 구분하는 게 업계 표준처럼 굳어질 수 있음
  - 반대로 구글 같은 대형 사업자가 버티면, 웹사이트 운영자와 AI 플랫폼 사이의 힘겨루기가 더 노골적으로 커질 가능성이 있음

---

## 기술 맥락

- 클라우드플레어가 고른 선택은 “봇을 회사별로 막자”가 아니라 “용도별로 나누자”에 가까워요. 왜냐하면 같은 구글봇이라도 검색 색인용이면 사이트에 유입을 돌려줄 수 있지만, AI 학습용이면 콘텐츠를 가져가고 방문자는 안 보낼 수 있거든요.

- 광고 페이지를 기준으로 삼은 것도 꽤 실무적인 판단이에요. 광고가 붙은 페이지는 사람이 방문해야 수익이 나는 구조라서, AI 답변이 원문 방문을 대체하면 바로 매출 손실로 이어질 수 있어요. 반대로 문서나 오픈소스 페이지는 노출 자체가 이득인 경우가 많아서 무조건 막으면 손해가 날 수 있고요.

- 구글봇 문제가 민감한 이유는 검색 인덱싱과 AI 기능이 같은 크롤러에 묶여 있기 때문이에요. 운영자가 robots 정책으로 단순 차단을 걸면 검색 노출까지 같이 잃을 수 있으니, 기술 정책이 사실상 비즈니스 협상 카드가 되는 상황이에요.

- 이 흐름은 한국 서비스 운영자에게도 남 얘기가 아니에요. 기술 블로그, 커뮤니티, 미디어처럼 검색 유입과 콘텐츠 저작권 양쪽을 모두 신경 써야 하는 곳은 앞으로 봇 관리 정책을 더 세밀하게 가져가야 할 가능성이 커요.

## 핵심 포인트

- 클라우드플레어는 광고가 게재된 페이지에서 혼합형 크롤러를 기본 차단하겠다고 발표했다.
- 기존의 단순한 AI 봇 차단 옵션을 검색, 에이전트, 학습 용도로 나눠 운영자가 정책을 따로 설정하게 했다.
- 구글봇처럼 검색과 AI 학습을 한 봇으로 묶는 구조는 사이트 운영자에게 검색 노출과 AI 학습 제공 중 양자택일을 강요한다.
- 클라우드플레어 기준 구글은 크롤 대비 유입 비율이 약 14:1인 반면, 오픈AI는 1700:1, 앤트로픽은 7만3000:1로 트래픽 반환 효과가 거의 없다.
- 2026년 기준 전 세계 웹 HTTP 요청의 57.5%가 봇 트래픽이고, AI 크롤러 요청 중 모델 학습 목적이 51.8%를 차지한다.

## 인사이트

이건 단순한 봇 차단 기능 업데이트가 아니라, 검색엔진과 웹사이트 사이의 오래된 거래가 AI 시대에도 유효한지 묻는 싸움이다. 한국의 미디어, 블로그, 기술 문서 운영자도 검색 노출을 유지하면서 AI 학습 수집만 거부할 수 있는 선택지가 필요해질 가능성이 크다.
