본문으로 건너뛰기
피드

검색과 인공지능이 만드는 ‘감시형 웹의 벽정원’

general 약 12분

이 글은 오픈 웹이 사라지는 이유를 출판의 문제가 아니라 발견 가능성의 문제로 봐. 구글 검색, 브라우저, 광고, 운영체제, 인공지능 어시스턴트, 신원 확인 인프라가 합쳐지면서 측정되고 수익화되는 웹만 더 잘 보이게 된다는 주장이다.

  • 1

    구글은 2026년 4월 기준 전 세계 검색 점유율 90.04%로 사실상 발견 계층을 지배함

  • 2

    작은 웹은 트래픽, 백링크, 기관 도메인, 메타데이터가 약해 자동 생성 스팸과 신호상 구분되기 어려움

  • 3

    크롬 사용자 경험 데이터, 안드로이드 텔레메트리, 디엔에스, 시디엔, 브이피엔, 브라우저 어시스턴트가 모두 측정 계층을 만든다는 분석임

  • 4

    대규모 언어 모델이 검색 인덱스와 필터링된 웹을 학습·검색 기반으로 쓰면 보이지 않는 지식은 미래 답변에서도 빠질 수 있음

  • 5

    앱스토어식 나이 확인과 플랫폼 증명까지 확산되면 중요한 서비스가 벤더 인증 트래픽만 받는 인터넷으로 갈 수 있음

오픈 웹은 사라지는 게 아니라 ‘안 보이게’ 되는 중

  • 이 글의 핵심 주장은 간단함. 웹에 글을 올리는 건 여전히 쉽지만, 사람들이 그 글을 찾는 경로가 점점 벤더별 폐쇄 환경으로 빨려 들어가고 있다는 것임

    • 검색엔진, 크롤러, 인덱스, 브라우저, 운영체제, 인공지능 어시스턴트, 디엔에스(DNS), 브이피엔(VPN), 광고 시스템, 정책 절차가 한 덩어리처럼 움직인다는 얘기임
    • 그래서 공개된 문서냐 아니냐보다, 해당 문서가 측정·수익화·법무·편집 시스템과 얼마나 잘 맞느냐가 발견 가능성을 좌우하게 됨
  • 글쓴이는 이 문제를 구글 중심으로 설명함. 이유는 구글이 그냥 검색엔진 하나가 아니라 사실상 공개 웹의 기본 발견 계층이기 때문임

    • 2026년 4월 기준 StatCounter에서 구글의 전 세계 검색 점유율은 90.04%로 제시됨
    • 구글에서 빠지는 건 어느 디렉터리 하나에서 빠지는 게 아니라, 대다수 사용자가 쓰는 발견 경로에서 사라지는 것에 가까움
  • 여기서 피해를 크게 보는 건 이른바 작은 웹(small web)임

    • 개인 블로그, 독립 아카이브, 취미 문서, 기술 메모, 자원봉사 프로젝트, 비상업 지식 같은 것들임
    • 이런 사이트는 공개돼 있어도 광고, 분석 도구, 백링크, 기관 도메인, 홍보 예산이 약해서 검색 시스템이 좋아하는 신호를 많이 만들지 못함

검색 인덱스는 카탈로그가 아니라 측정 시스템이 됨

  • 현대 검색은 단순히 문서 내용을 읽고 순위를 매기는 게 아니라, 사용자가 어떻게 행동했는지를 측정하는 시스템에 가까워짐

    • 클릭, 긴 클릭, 재방문, 탐색 경로, 인기 신호, 페이지 경험, 최신성, 사이트 주변의 상업적 흔적이 같이 평가됨
    • 문제는 “측정되지 않는 가치”가 시스템 안에서 “가치 없음”처럼 보일 수 있다는 점임
  • 구글의 CrUX는 이 논지를 잘 보여주는 예시임

    • CrUX는 실제 크롬 사용자 경험 데이터를 모은 데이터셋이고, 구글은 이 데이터가 검색의 페이지 경험 랭킹 요소에 쓰인다고 설명함
    • 하지만 충분한 인기 기준을 넘지 못한 출처와 페이지는 CrUX에 포함되지 않음
    • 즉 좋은 글을 쓰고 기술적으로 잘 만들어도, 먼저 충분히 관측될 만큼의 크롬 사용자가 있어야 데이터셋에 들어갈 수 있음

중요

> 작은 사이트 입장에선 여기서 닭과 달걀 문제가 생김. 검색에 노출돼야 트래픽 신호가 생기는데, 트래픽 신호가 약하면 검색에서 더 안 보이게 됨.

  • 글은 이걸 “감시 호환성”이라고 부름

    • 크롬, 안드로이드, 구글 서비스 활동 기록, 디엔에스, 시디엔(CDN), 브이피엔, 브라우저 어시스턴트, 페이지 요약 기능이 모두 사용자의 읽기 경로 일부를 관측할 수 있음
    • 사이트 안에 추적 스크립트를 심지 않아도, 이름 해석, 자산 전달, 터널링, 요약 요청만으로 어떤 도메인과 문서가 읽히는지 추정할 수 있다는 주장임
  • 개인정보 보호 선택이 역설적으로 작은 웹을 더 안 보이게 만들 수도 있다는 지적도 나옴

    • 크롬의 Manifest V3 전환으로 광고 차단 확장 기능 환경이 바뀌었고, Manifest V2는 2025년에 일반 사용자 대상 비활성화가 진행됐다고 설명함
    • 기술 사용자들은 프라이버시 지향 크로미움 포크나 파이어폭스 계열로 이동할 수 있지만, 그러면 크롬 기반 측정 데이터에는 덜 잡힘
    • 결과적으로 작은 웹을 많이 읽는 사용자일수록 측정 시스템에서 빠지고, 그들이 읽는 사이트도 유용성 신호를 덜 얻게 되는 아이러니가 생김

수익화되는 웹이 더 읽히기 쉬운 구조

  • 두 번째 벽은 수익화 호환성임

    • 광고 노출, 분석 이벤트, 검색엔진최적화, 홍보, 소셜 확산, 제휴 링크, 기관 백링크는 검색 시스템이 읽을 수 있는 주변 증거를 만들어냄
    • 반면 독립 연구, 취미 전문지식, 작은 기술 아카이브, 비판적 분석은 문서 자체에 가치가 몰려 있고 주변 신호는 빈약한 경우가 많음
  • 글쓴이는 이걸 단순히 “광고 쓰면 검색 순위가 오른다”는 음모론으로 말하지 않음

    • 상업적 사이트는 관심, 링크, 재방문, 구조화된 마케팅 데이터, 기관 인정을 생산하기 쉬움
    • 독립 사이트는 같은 품질의 내용을 갖고 있어도 그런 신호 경제에서 불리함
    • 검색 시스템이 형식적으로 중립이어도, 신호를 만드는 경제는 중립이 아니라는 게 포인트임
  • 미국 법원이 구글의 검색·검색 광고, 오픈 웹 광고 기술 시장에서 독점 관련 위법 행위를 인정했다는 맥락도 붙음

    • 한 회사가 검색, 브라우저, 광고 인프라, 모바일 플랫폼, 유튜브, 제미나이(Gemini)를 함께 갖고 있으면 측정 계층과 수익화 계층이 같은 회사 안에서 맞물림
    • 그러면 보이는 웹은 점점 수익화 가능한 웹과 닮아갈 수밖에 없다는 주장임

법, 정책, 사설 편집 권력도 벽이 됨

  • 세 번째 벽은 국가 요청에 따른 제거임

    • 정부는 검색, 유튜브, 블로거, 플레이 같은 서비스에서 콘텐츠 삭제를 요청할 수 있고, 구글은 투명성 보고서를 통해 이를 공개함
    • 저작권, 명예훼손, 국가안보, 혐오표현, 선거 규칙, 법원 명령 같은 이유가 붙을 수 있음
  • 네 번째 벽은 더 보기 어려운 사설 편집 권력임

    • 수동 조정, 블랙리스트, 민감한 검색 영역의 특별 처리 같은 개입은 외부에서 기준과 절차를 알기 어려움
    • 스팸 방지, 사기 방지, 선거 무결성, 아동 안전 같은 명분이 있을 수 있지만, 독립 작성자나 작은 연구자는 항의할 채널이 거의 없음
  • 글쓴이가 보는 진짜 문제는 이 네 벽이 합쳐질 때 생김

    • 감시 가능한 사이트가 더 잘 측정됨
    • 수익화 가능한 사이트가 더 많은 신호를 만듦
    • 법적·정책적으로 안전한 사이트가 더 오래 남음
    • 플랫폼 내부 판단에 맞는 사이트가 더 쉽게 유지됨

인공지능이 이 필터를 더 굳힐 수 있음

  • 검색이 대규모 언어 모델(LLM)의 입력이 되면 판이 더 커짐

    • 모델은 웹 문서로 학습하고, 검색 기반 grounding을 통해 최신 정보를 답변에 붙임
    • 구글 제미나이 1.5 기술 보고서는 사전학습 데이터에 웹 문서가 포함된다고 설명하고, 구글 클라우드는 제미나이 응답을 구글 검색으로 grounding하는 기능을 문서화함
  • 오픈에이아이 사례도 같은 방향으로 읽힘

    • OAI-SearchBot은 챗지피티 검색 노출에, GPTBot은 기반 모델 학습에 쓰일 수 있는 콘텐츠 크롤링에 대응하는 로봇으로 구분됨
    • ChatGPT Atlas는 크로미움 기반 브라우저에 챗지피티를 통합하는 방향이고, 사용자가 허용하면 브라우징 콘텐츠가 학습 제어 대상에 들어갈 수 있음
  • 문제는 검색 인덱스와 학습 말뭉치가 완전히 같지는 않아도, 검색이 강력한 발견·필터링·grounding 계층이라는 점임

    • 검색에서 체계적으로 빠지는 문서는 모델 학습과 실시간 답변에서도 빠질 가능성이 커짐
    • 글쓴이는 이를 인식론적 동질화라고 부름. 모델 답변이 넓어 보이지만 실제로는 제도권·상업적·측정 가능한 출처 쪽으로 좁아질 수 있다는 뜻임
sequenceDiagram
    participant 작은사이트 as 작은 웹 사이트
    participant 검색 as 검색 인덱스
    participant 측정 as 측정·광고 계층
    participant 모델 as 대규모 언어 모델
    participant 사용자 as 사용자
    작은사이트->>검색: 공개 문서 제공
    검색->>측정: 클릭·성능·인기 신호 확인
    측정-->>검색: 신호 부족 또는 낮은 권위 반환
    사용자->>검색: 검색 요청
    검색-->>사용자: 측정 가능한 출처 중심 노출
    검색->>모델: grounding용 결과 제공
    모델-->>사용자: 필터링된 웹 기반 답변 생성

다음 단계는 ‘인증된 인터넷’일 수도 있음

  • 글 후반부는 법적·사기 리스크가 웹 접근의 입장료가 될 수 있다고 봄

    • 나이 확인, 봇 탐지, 사기 방지, 결제 규칙, 관할권 의무가 커지면 서비스 운영자는 인증된 트래픽만 받는 쪽이 더 안전하다고 판단할 수 있음
    • 애플 Wallet, 구글 Wallet, Play Integrity, App Attest, 운영체제 내장 릴레이와 브이피엔이 이런 증명 채널로 확장될 수 있다는 주장임
  • 유타주의 2025년 앱스토어 책임법 사례도 언급됨

    • 이 법은 앱스토어를 애플·구글 스토어로만 좁게 보지 않고, 모바일 기기에 서드파티 앱을 내려받게 하는 공개 웹사이트·소프트웨어·전자 서비스를 포함하는 식으로 정의함
    • 제공자는 나이 범주와 부모 동의 상태를 확인하고 개발자에게 공유해야 하며, 개발자는 해당 데이터를 통해 상태를 검증해야 함
  • 최종 그림은 꽤 섬뜩함

    • 은행, 정부 포털, 항공사, 예약 서비스, 티켓팅, 마켓플레이스 같은 고위험 서비스가 “인증 안 된 트래픽은 너무 비싸다”고 판단할 수 있음
    • 그러면 오픈 웹이 법적으로 금지되진 않아도, 중요한 서비스는 벤더가 통제하는 브라우저·운영체제·지갑·릴레이·증명 채널에서만 제대로 작동하는 인터넷이 될 수 있음

기술 맥락

  • 이 글에서 중요한 선택은 검색을 “문서 인덱스”가 아니라 “측정 인프라”로 보는 관점이에요. 왜냐하면 현대 검색은 본문 텍스트만 보는 게 아니라 클릭, 성능, 브라우저 데이터, 광고 생태계의 신호까지 함께 읽기 때문이에요.

  • CrUX 같은 실제 사용자 데이터는 성능 개선에는 유용해요. 다만 충분히 관측될 만큼 인기 있는 사이트만 데이터셋에 들어가면, 작은 사이트는 품질을 증명할 기회 자체가 줄어들어요. 그래서 기술적으로는 합리적인 랭킹 신호가 생태계 차원에서는 진입장벽처럼 작동할 수 있어요.

  • LLM grounding이 붙으면 영향 범위가 검색 트래픽을 넘어가요. 모델이 현재 정보를 검색 결과로 보강한다면, 검색에서 안 보이는 문서는 답변에서도 덜 등장하게 되거든요. 이때 빠지는 건 단순한 페이지뷰가 아니라 미래 시스템이 “알고 있다고 여기는 지식”이에요.

  • Device attestation과 지갑 기반 신원 확인은 보안·사기 방지 목적만 놓고 보면 꽤 현실적인 도구예요. 문제는 서비스들이 법적 책임을 줄이려고 이런 벤더 인증 경로만 신뢰하기 시작하면, 오픈 브라우저와 독립 클라이언트가 점점 2등 시민이 될 수 있다는 점이에요.

검색 품질이나 개인정보 보호 논쟁처럼 보이지만, 핵심은 지식 인프라가 누구의 측정 장치에 맞춰지는가야. 작은 기술 블로그, 독립 문서, 한국어 개발 자료도 트래픽 신호가 약하면 인공지능 시대에 더 안 보이는 쪽으로 밀릴 수 있음.

댓글

댓글

댓글을 불러오는 중...

general

뉴욕타임스·디애틀랜틱·USA투데이에 Wayback Machine 보존 허용을 요구하는 청원

Save the Archive 청원은 주요 언론사가 Internet Archive의 Wayback Machine 보존을 막지 말고 협력해야 한다고 요구함. 특히 뉴욕타임스, 디애틀랜틱, USA투데이가 AI 우려를 이유로 보존을 제한하는 흐름을 비판하면서, 오히려 생성형 AI 시대일수록 독립적인 웹 아카이브가 더 중요하다고 주장함.

general

이 대통령, AI ‘초과세수 국민배당’ 논란에 직접 반박

이재명 대통령이 김용범 정책실장의 ‘AI 국민배당금’ 발언을 둘러싼 논란에 직접 나섰다. 핵심은 기업의 초과이윤을 걷겠다는 얘기가 아니라, AI 산업 호황으로 국가에 초과세수가 생기면 그 재원을 국민에게 어떻게 돌려줄지 검토하자는 취지였다는 설명이다.

general

AI 데이터센터 붐에 캐터필러·이튼까지 반도체주처럼 움직이는 중

AI 투자 열풍이 엔비디아 같은 반도체주를 넘어 전력, 냉각, 발전 장비를 파는 전통 산업재 기업 주가까지 끌어올리고 있다는 내용이다. 데이터센터 증설이 물리 인프라 수요를 키우면서 S&P500 산업재 지수와 필라델피아 반도체지수의 45일 상관계수가 0.75까지 올라갔다.

general

시니어 개발자가 자기 전문성을 제대로 설명하지 못하는 이유

이 글은 시니어 개발자가 비즈니스와 자주 어긋나는 이유를 ‘복잡성 관리’와 ‘불확실성 감소’의 충돌로 설명한다. 사업팀은 시장 반응을 빨리 확인하고 싶어 하고, 시니어 개발자는 안정성과 유지보수성을 지키려 하니 같은 요청도 서로 다른 문제로 보인다는 얘기다.

general

메트로폴리탄 미술관, 역사적 유물 140여 점을 고해상도 3D 스캔으로 공개

메트로폴리탄 미술관이 소장품 중 거의 140점에 가까운 역사적 유물을 고해상도 3D 모델로 공개했어. 단순 이미지 다운로드를 넘어, 반 고흐의 붓질이나 바빌로니아 설형문자 점토판, 18세기 터키 타일의 뒷면까지 돌려보고 확대할 수 있는 연구용 디지털 자료에 가까워졌다는 게 포인트야.