본문으로 건너뛰기
피드

클라우드플레어, 구글봇에 칼 뺐다…검색 크롤러랑 AI 학습 봇 분리하라는 압박

ai-ml 약 6분
vote
0
댓글
북마크

클라우드플레어가 9월 15일부터 광고가 붙은 페이지에서 검색과 AI 학습을 동시에 수행하는 혼합형 크롤러를 기본 차단하겠다고 밝혔다. 핵심 타깃은 검색 색인, AI 오버뷰, AI 모드에 구글봇 하나를 쓰는 구글식 구조다. 웹사이트 운영자가 검색 노출을 포기하지 않고도 AI 학습 수집은 거부할 수 있게 하겠다는 흐름이라, 웹 콘텐츠 생태계의 돈 흐름과 직결된다.

  • 1

    클라우드플레어는 광고가 게재된 페이지에서 혼합형 크롤러를 기본 차단하겠다고 발표했다.

  • 2

    기존의 단순한 AI 봇 차단 옵션을 검색, 에이전트, 학습 용도로 나눠 운영자가 정책을 따로 설정하게 했다.

  • 3

    구글봇처럼 검색과 AI 학습을 한 봇으로 묶는 구조는 사이트 운영자에게 검색 노출과 AI 학습 제공 중 양자택일을 강요한다.

  • 4

    클라우드플레어 기준 구글은 크롤 대비 유입 비율이 약 14:1인 반면, 오픈AI는 1700:1, 앤트로픽은 7만3000:1로 트래픽 반환 효과가 거의 없다.

  • 5

    2026년 기준 전 세계 웹 HTTP 요청의 57.5%가 봇 트래픽이고, AI 크롤러 요청 중 모델 학습 목적이 51.8%를 차지한다.

  • 클라우드플레어가 구글식 혼합형 크롤러에 제대로 브레이크를 걸기 시작함

    • 9월 15일부터 광고가 붙은 페이지에서는 검색 색인과 AI 학습을 동시에 수행하는 봇을 기본 차단하겠다고 발표함
    • 클라우드플레어는 전 세계 웹사이트 약 20%가 쓰는 인프라라서, 이 기본값 변경은 그냥 한 회사 정책 변경 수준이 아님
  • 핵심은 “검색은 허용하고 싶은데, AI 학습까지 공짜로 주긴 싫다”는 웹사이트 운영자의 딜레마임

    • 지금 구글은 검색 색인, AI 오버뷰, AI 모드에 모두 구글봇 하나를 사용함
    • 사이트 운영자 입장에서는 구글봇을 막으면 검색 결과에서도 사라질 수 있음
    • 결국 “검색 유입을 포기할래, 아니면 AI 학습 수집까지 받아들일래?”라는 꽤 빡센 양자택일이 됨
  • 클라우드플레어는 봇 정책을 검색, 에이전트, 학습 세 가지로 쪼갰음

    • 예전에는 AI 봇을 통째로 허용하거나 차단하는 식이라 선택지가 너무 거칠었음
    • 이제는 검색용 봇은 허용하고, 모델 학습용 봇은 막는 식의 정책이 가능해지는 방향임
    • 클라우드플레어가 말하는 목표는 혼합형 크롤러를 용도별로 분리하도록 압박하는 것임

중요

> 클라우드플레어가 문제 삼는 건 AI가 웹을 읽는 행위 자체가 아니라, 검색 유입이라는 보상은 줄이면서 콘텐츠 수집만 늘어나는 구조임.

  • 광고가 붙은 페이지부터 막겠다는 기준도 꽤 현실적임

    • 광고 페이지는 사람이 방문해서 읽고, 그 방문으로 수익을 내는 구조라는 신호임
    • AI가 그 내용을 가져가 자체 답변에 써버리면 사용자는 원문 사이트에 갈 이유가 줄어듦
    • 반대로 기업 소개, 기술 문서, 오픈소스 문서처럼 광고가 없는 페이지는 검색 노출이나 브랜드 인지가 더 중요할 수 있어서 일괄 차단하면 손해가 날 수 있음
  • 숫자를 보면 왜 퍼블리셔들이 예민해졌는지 바로 이해됨

    • 구글은 크롤 대비 유입 비율이 약 14:1임. 14번 크롤링할 때 방문자 1명을 보내주는 셈임
    • 오픈AI는 1700:1, 앤트로픽은 7만3000:1로 측정됨
    • 말이 좋아 크롤링이지, 퍼블리셔 입장에서는 서버 자원 쓰고 콘텐츠 내주는데 돌아오는 트래픽은 거의 없는 구조임
  • 더 골치 아픈 건 AI 크롤러가 같은 페이지를 계속 긁는다는 점임

    • 클라우드플레어 자체 분석에 따르면 AI 크롤러 트래픽의 50% 이상이 변경되지 않은 페이지를 반복 수집하는 데 쓰임
    • 퍼블리셔 서버와 대역폭만 낭비되는 셈이라, 작은 미디어나 독립 운영 사이트에는 비용 압박으로 이어질 수 있음
  • 웹 트래픽의 중심도 이미 사람에서 봇으로 넘어감

    • 클라우드플레어 레이더 기준 2026년 전 세계 웹 HTTP 요청의 57.5%가 봇 트래픽임
    • 사람 트래픽은 42.5%라서, 웹 요청의 다수는 이미 사람이 아니라 자동화 시스템이 만들고 있음
    • AI 크롤러 요청 중 모델 학습 목적은 51.8%, 혼합 용도는 35.7%, 순수 검색 목적은 9.3%에 그침
  • 클라우드플레어는 2027년 중반까지 혼합형 크롤러 트래픽 비중을 0%로 줄이겠다는 목표를 냈음

    • 이게 성공하면 검색 봇, AI 에이전트 봇, 학습 봇을 구분하는 게 업계 표준처럼 굳어질 수 있음
    • 반대로 구글 같은 대형 사업자가 버티면, 웹사이트 운영자와 AI 플랫폼 사이의 힘겨루기가 더 노골적으로 커질 가능성이 있음

기술 맥락

  • 클라우드플레어가 고른 선택은 “봇을 회사별로 막자”가 아니라 “용도별로 나누자”에 가까워요. 왜냐하면 같은 구글봇이라도 검색 색인용이면 사이트에 유입을 돌려줄 수 있지만, AI 학습용이면 콘텐츠를 가져가고 방문자는 안 보낼 수 있거든요.

  • 광고 페이지를 기준으로 삼은 것도 꽤 실무적인 판단이에요. 광고가 붙은 페이지는 사람이 방문해야 수익이 나는 구조라서, AI 답변이 원문 방문을 대체하면 바로 매출 손실로 이어질 수 있어요. 반대로 문서나 오픈소스 페이지는 노출 자체가 이득인 경우가 많아서 무조건 막으면 손해가 날 수 있고요.

  • 구글봇 문제가 민감한 이유는 검색 인덱싱과 AI 기능이 같은 크롤러에 묶여 있기 때문이에요. 운영자가 robots 정책으로 단순 차단을 걸면 검색 노출까지 같이 잃을 수 있으니, 기술 정책이 사실상 비즈니스 협상 카드가 되는 상황이에요.

  • 이 흐름은 한국 서비스 운영자에게도 남 얘기가 아니에요. 기술 블로그, 커뮤니티, 미디어처럼 검색 유입과 콘텐츠 저작권 양쪽을 모두 신경 써야 하는 곳은 앞으로 봇 관리 정책을 더 세밀하게 가져가야 할 가능성이 커요.

이건 단순한 봇 차단 기능 업데이트가 아니라, 검색엔진과 웹사이트 사이의 오래된 거래가 AI 시대에도 유효한지 묻는 싸움이다. 한국의 미디어, 블로그, 기술 문서 운영자도 검색 노출을 유지하면서 AI 학습 수집만 거부할 수 있는 선택지가 필요해질 가능성이 크다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

메타의 남는 AI 인프라 판매설, 진짜 리스크는 미국 데이터센터 경제성이라는 지적

메타가 남는 AI 인프라를 클라우드처럼 외부에 빌려줄 수 있다는 관측에 시장이 반응했지만, 테크 전문가 마크 더글라스는 회의적인 시각을 냈다. 그는 미국 내 하이퍼스케일 데이터센터의 비용과 지역 반대가 커지는 사이, 걸프 지역의 저렴한 전력 기반 데이터센터가 강력한 경쟁자가 될 수 있다고 봤다. 다만 메타의 장기 AI 전략, 특히 라마와 광고 모델 개선 가능성에는 긍정적이었다.

ai-ml

메타, 남는 AI 인프라로 클라우드 사업까지 노린다

메타가 AI 모델 훈련과 운영을 위해 구축한 데이터센터 인프라를 외부에 빌려주는 클라우드 사업을 준비 중인 것으로 알려졌다. AI 모델 접근권 판매나 데이터센터 컴퓨팅 임대가 거론되며, 실제로 시작되면 아마존, 구글, 스페이스X와 직접 경쟁하게 된다.

ai-ml

산업단지공단·네이버클라우드, 제조 현장 인공지능 전환 협력

한국산업단지공단이 네이버클라우드와 업무협약을 맺고 공공업무와 산업단지 제조기업의 인공지능 전환을 함께 추진한다. 하이퍼클로바엑스 기반 임직원 시범서비스, 스마트 케이-팩토리 연계, 입주기업 지원 프로그램이 주요 내용이다.

ai-ml

기업 60%가 인공지능 지출에 제동…오픈소스 모델엔 기회가 열림

유비에스 애널리스트들이 기업 정보기술 임원들과 대화한 결과, 약 60%가 인공지능 지출을 어떤 형태로든 제한하고 있는 것으로 나타났다. 토큰 비용 부담이 커지면서 오픈에이아이, 앤트로픽 같은 상용 모델 업체에는 압박이 되고, 딥시크 같은 오픈소스 모델에는 기회가 될 수 있다는 분석이다.

ai-ml

BC카드, 금융 특화 임베딩 모델 공개…한국어 금융 검색 성능 최대 15% 끌어올림

BC카드가 한국어 금융 데이터 182만건으로 학습한 금융 특화 임베딩 모델을 공개했다. 경량형은 6억 파라미터로 일반 중앙처리장치에서 돌릴 수 있고, 고품질형은 40억 파라미터로 정밀 검색 업무를 겨냥한다.