본문으로 건너뛰기
피드

Referer 헤더는 이미 믿기 힘들어졌고, 그래서 UTM을 붙인다는 얘기

backend 약 5분

글쓴이는 다른 사이트로 보내는 링크에 `utm_source=Robin_Sloan_sent_me` 같은 쿼리 문자열을 붙이는 이유를 설명함. 예전처럼 Referer 헤더만 보면 유입 출처를 알 수 있다고 보기 어렵고, 특히 뉴스레터나 프라이버시 보호 환경에서는 많은 트래픽이 Direct 또는 Unknown으로 뭉개지기 때문임.

  • 1

    일부 사이트 운영자는 예기치 않은 쿼리 문자열이 붙은 요청을 아예 거부하기도 함

  • 2

    글쓴이는 Referer 헤더가 사라지는 경우가 많아서 링크 출처를 명확히 남기려고 커스텀 UTM을 붙임

  • 3

    이 방식은 쇼핑몰이나 소규모 사이트 운영자가 갑작스러운 유입의 출처를 파악하는 데 도움이 될 수 있음

  • 4

    YouTube처럼 예상 밖의 쿼리 문자열에 문제가 생기는 사이트도 있어 예외 목록을 관리한다고 밝힘

  • 어떤 사이트 운영자는 URL 뒤에 붙는 이상한 쿼리 문자열을 그냥 받아들이지 않음

    • Chris Morgan이라는 사람은 자기 사이트에 ?like=this&and=this 같은 쿼리 문자열이 붙으면 요청을 거부하도록 설정함
    • 사이트 주인이 자기 서버를 어떻게 운영하든 그건 당연히 자유임
    • 다만 글쓴이는 “출처가 궁금하면 Referer 헤더를 보면 된다”는 전제가 이제는 잘 안 맞는다고 봄
  • Referer 헤더는 웹 유입 분석에서 예전만큼 믿을 만한 신호가 아님

    • 많은 방문은 Referer 없이 들어옴
    • 그러면 분석 도구에서는 그 트래픽이 Direct 또는 Unknown 같은 커다란 덩어리로 뭉개짐
    • 실제로는 뉴스레터, 앱, 프라이버시 설정, 브라우저 정책 때문에 출처가 사라졌을 수 있는데도 “직접 방문”처럼 보일 수 있음
  • 그래서 글쓴이는 자신이 공유하는 외부 링크에 utm_source=Robin_Sloan_sent_me를 붙임

    • 특히 이메일 뉴스레터에서 클릭이 많이 발생한다는 걸 알고 있기 때문에, 링크를 받은 사이트가 출처를 알아볼 수 있게 하려는 의도임
    • Shopify 같은 상점 운영 환경에서는 갑자기 주문이나 구독이 늘었을 때 “이 트래픽이 어디서 왔지?”가 꽤 중요한 정보가 됨

ℹ️참고

> 글쓴이는 이걸 광고 추적 욕심이라기보다 ‘누가 링크했는지 남겨주는 예절’에 가깝게 설명함. 익명 트래픽을 갑자기 던져놓는 대신, 필요하면 사이트 운영자가 연락할 수 있는 단서를 남긴다는 얘기임.

  • 실제로 이 정보가 도움이 된 사례도 있음

    • Abrams Planetarium에 갑자기 새 구독자가 몰렸을 때, 그 유입이 진짜 사람들인지 의심스러운 상황이 있었다고 함
    • 글쓴이와 짧은 이메일을 주고받으면서 “뉴스레터 독자들이 맞고, Sky Calendar를 원해서 온 사람들”이라는 점이 확인됨
    • 소규모 사이트나 상점 입장에서는 이런 맥락 하나가 운영상 꽤 유용할 수 있음
  • 물론 모든 사이트가 쿼리 문자열을 잘 처리하는 건 아님

    • YouTube조차 예상 밖의 쿼리 문자열에서 문제가 생기는 사이트 목록에 들어간다고 언급됨
    • 그래서 글쓴이는 예외 목록을 따로 관리하고, 이번에 Chris Morgan의 사이트도 그 목록에 추가함

기술 맥락

  • Referer 헤더는 원래 “이 요청이 어디서 왔는지” 알려주는 단서예요. 그런데 프라이버시 보호가 강화되고, 이메일 클라이언트나 앱 안 브라우저를 거치는 흐름이 많아지면서 이 값이 비어 있는 경우가 흔해졌어요.

  • 그래서 UTM이 여전히 쓰이는 이유는 출처 정보를 요청 헤더에만 맡기기 어렵기 때문이에요. 링크 자체에 utm_source를 붙이면, 중간에 Referer가 사라져도 도착한 사이트의 분석 도구가 최소한 유입 맥락을 읽을 수 있어요.

  • 다만 쿼리 문자열을 붙이는 방식은 호환성 비용이 있어요. 서버나 라우터가 예상하지 못한 파라미터를 거부하도록 되어 있으면 정상 링크도 깨질 수 있고, 캐시 키나 리다이렉트 처리에도 영향을 줄 수 있거든요.

  • 이 글의 재미있는 지점은 추적 기술을 무조건 나쁘게만 보지 않는다는 데 있어요. 대규모 광고 추적이 아니라, 작은 사이트 운영자가 갑자기 늘어난 트래픽의 정체를 이해하게 해주는 최소한의 신호로 UTM을 쓰자는 입장이에요.

웹 분석에서 ‘Direct 트래픽’은 생각보다 정직한 값이 아닐 때가 많음. Referer가 비어 있다고 전부 사용자가 주소를 직접 친 게 아니고, 뉴스레터·앱·브라우저 정책·프라이버시 설정이 섞이면 출처 정보가 꽤 쉽게 날아감.

댓글

댓글

댓글을 불러오는 중...

backend

Cloudflare가 잡아낸 QUIC CUBIC 버그, ‘idle’ 한 줄 오판이 다운로드를 죽였다

Cloudflare의 QUIC 구현체 quiche에서 CUBIC 혼잡 제어가 최소 윈도우에 갇혀 회복하지 못하는 버그가 발견됐다. Linux 커널의 idle 최적화를 QUIC에 옮기는 과정에서 TCP와 QUIC의 이벤트 타이밍 차이를 놓쳤고, 결국 ACK 시점을 기준으로 idle 시간을 재도록 고쳐 100% 테스트 통과를 회복했다.

backend

삼성전자가 반도체 개발 조직에 오라클 자바를 공식 채택한 이유

삼성전자 DS 부문이 글로벌 반도체 개발 환경에 오라클 자바 SE 유니버설 서브스크립션을 공식 채택했다. 서로 다른 자바 배포판과 버전이 섞이면서 생길 수 있는 보안, 컴플라이언스, 라이선스 리스크를 줄이고 개발 환경을 표준화하려는 결정이다.

backend

네이버클라우드, 트래픽 따라 알아서 줄고 느는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 CPU, 메모리, 스토리지를 자동 조절하는 완전관리형 서버리스 데이터베이스 서비스를 내놨다. 기존 가상머신 기반 관리형 데이터베이스처럼 피크 트래픽에 맞춰 서버를 과하게 잡아두는 방식에서 벗어나, 사용량 기반 과금과 오토스케일링으로 비용 낭비를 줄이겠다는 방향이다.

backend

네이버클라우드, 사용량 따라 늘고 줄어드는 서버리스 데이터베이스 출시

네이버클라우드가 완전관리형 서버리스 데이터베이스 서비스인 Cloud DB Serverless를 출시했다. VM 기반 관리형 데이터베이스의 고정 비용과 과잉 프로비저닝 문제를 줄이고, 트래픽에 따라 CPU·메모리·스토리지를 자동 조절하는 구조를 내세운다.

backend

네이버클라우드, 사용량 따라 자동 확장되는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 컴퓨팅 자원을 자동 조절하는 서버리스 기반 클라우드 데이터베이스를 출시했음. 기존 가상머신 기반 관리형 데이터베이스의 고정 비용과 운영 부담을 줄이고, 국내 데이터 규제 요구까지 맞추겠다는 전략임.