본문으로 건너뛰기
피드

Referer 헤더는 이미 믿기 힘들어졌고, 그래서 UTM을 붙인다는 얘기

backend 약 5분
vote
0
댓글
북마크

글쓴이는 다른 사이트로 보내는 링크에 `utm_source=Robin_Sloan_sent_me` 같은 쿼리 문자열을 붙이는 이유를 설명함. 예전처럼 Referer 헤더만 보면 유입 출처를 알 수 있다고 보기 어렵고, 특히 뉴스레터나 프라이버시 보호 환경에서는 많은 트래픽이 Direct 또는 Unknown으로 뭉개지기 때문임.

  • 1

    일부 사이트 운영자는 예기치 않은 쿼리 문자열이 붙은 요청을 아예 거부하기도 함

  • 2

    글쓴이는 Referer 헤더가 사라지는 경우가 많아서 링크 출처를 명확히 남기려고 커스텀 UTM을 붙임

  • 3

    이 방식은 쇼핑몰이나 소규모 사이트 운영자가 갑작스러운 유입의 출처를 파악하는 데 도움이 될 수 있음

  • 4

    YouTube처럼 예상 밖의 쿼리 문자열에 문제가 생기는 사이트도 있어 예외 목록을 관리한다고 밝힘

  • 어떤 사이트 운영자는 URL 뒤에 붙는 이상한 쿼리 문자열을 그냥 받아들이지 않음

    • Chris Morgan이라는 사람은 자기 사이트에 ?like=this&and=this 같은 쿼리 문자열이 붙으면 요청을 거부하도록 설정함
    • 사이트 주인이 자기 서버를 어떻게 운영하든 그건 당연히 자유임
    • 다만 글쓴이는 “출처가 궁금하면 Referer 헤더를 보면 된다”는 전제가 이제는 잘 안 맞는다고 봄
  • Referer 헤더는 웹 유입 분석에서 예전만큼 믿을 만한 신호가 아님

    • 많은 방문은 Referer 없이 들어옴
    • 그러면 분석 도구에서는 그 트래픽이 Direct 또는 Unknown 같은 커다란 덩어리로 뭉개짐
    • 실제로는 뉴스레터, 앱, 프라이버시 설정, 브라우저 정책 때문에 출처가 사라졌을 수 있는데도 “직접 방문”처럼 보일 수 있음
  • 그래서 글쓴이는 자신이 공유하는 외부 링크에 utm_source=Robin_Sloan_sent_me를 붙임

    • 특히 이메일 뉴스레터에서 클릭이 많이 발생한다는 걸 알고 있기 때문에, 링크를 받은 사이트가 출처를 알아볼 수 있게 하려는 의도임
    • Shopify 같은 상점 운영 환경에서는 갑자기 주문이나 구독이 늘었을 때 “이 트래픽이 어디서 왔지?”가 꽤 중요한 정보가 됨

ℹ️참고

> 글쓴이는 이걸 광고 추적 욕심이라기보다 ‘누가 링크했는지 남겨주는 예절’에 가깝게 설명함. 익명 트래픽을 갑자기 던져놓는 대신, 필요하면 사이트 운영자가 연락할 수 있는 단서를 남긴다는 얘기임.

  • 실제로 이 정보가 도움이 된 사례도 있음

    • Abrams Planetarium에 갑자기 새 구독자가 몰렸을 때, 그 유입이 진짜 사람들인지 의심스러운 상황이 있었다고 함
    • 글쓴이와 짧은 이메일을 주고받으면서 “뉴스레터 독자들이 맞고, Sky Calendar를 원해서 온 사람들”이라는 점이 확인됨
    • 소규모 사이트나 상점 입장에서는 이런 맥락 하나가 운영상 꽤 유용할 수 있음
  • 물론 모든 사이트가 쿼리 문자열을 잘 처리하는 건 아님

    • YouTube조차 예상 밖의 쿼리 문자열에서 문제가 생기는 사이트 목록에 들어간다고 언급됨
    • 그래서 글쓴이는 예외 목록을 따로 관리하고, 이번에 Chris Morgan의 사이트도 그 목록에 추가함

기술 맥락

  • Referer 헤더는 원래 “이 요청이 어디서 왔는지” 알려주는 단서예요. 그런데 프라이버시 보호가 강화되고, 이메일 클라이언트나 앱 안 브라우저를 거치는 흐름이 많아지면서 이 값이 비어 있는 경우가 흔해졌어요.

  • 그래서 UTM이 여전히 쓰이는 이유는 출처 정보를 요청 헤더에만 맡기기 어렵기 때문이에요. 링크 자체에 utm_source를 붙이면, 중간에 Referer가 사라져도 도착한 사이트의 분석 도구가 최소한 유입 맥락을 읽을 수 있어요.

  • 다만 쿼리 문자열을 붙이는 방식은 호환성 비용이 있어요. 서버나 라우터가 예상하지 못한 파라미터를 거부하도록 되어 있으면 정상 링크도 깨질 수 있고, 캐시 키나 리다이렉트 처리에도 영향을 줄 수 있거든요.

  • 이 글의 재미있는 지점은 추적 기술을 무조건 나쁘게만 보지 않는다는 데 있어요. 대규모 광고 추적이 아니라, 작은 사이트 운영자가 갑자기 늘어난 트래픽의 정체를 이해하게 해주는 최소한의 신호로 UTM을 쓰자는 입장이에요.

웹 분석에서 ‘Direct 트래픽’은 생각보다 정직한 값이 아닐 때가 많음. Referer가 비어 있다고 전부 사용자가 주소를 직접 친 게 아니고, 뉴스레터·앱·브라우저 정책·프라이버시 설정이 섞이면 출처 정보가 꽤 쉽게 날아감.

댓글

댓글

댓글을 불러오는 중...

backend

잘못된 추상화보다 중복이 낫다는 샌디 메츠의 고전 조언

샌디 메츠는 중복을 없애려다 잘못된 추상화를 만들면 코드가 조건문과 파라미터로 부풀어 더 위험해진다고 말한다. 이미 틀어진 추상화는 억지로 보존하지 말고, 다시 호출부에 인라인해서 중복을 되살린 뒤 현재 요구사항에 맞는 새 구조를 찾는 편이 빠르다는 주장이다.

backend

리눅스 커널, 6년·360개 넘는 패치 끝에 strncpy 제거

리눅스 커널이 오랫동안 버그의 원인이던 strncpy API 사용을 Linux 7.2에서 제거했어. NUL 종료 동작이 직관적이지 않고 불필요한 zero-fill로 성능 문제도 있던 API를 6년 동안 약 362개 커밋으로 걷어낸 작업임.

backend

덕디비는 왜 빠를까: 서버 없는 분석 엔진의 내부 구조 뜯어보기

DuckDB가 단일 바이너리, 인프로세스 실행, 컬럼형 저장, 최적화 패스, Parquet 푸시다운으로 빠른 분석 쿼리를 처리하는 방식을 깊게 설명한 글이다. 6GB Parquet 파일을 노트북에서 바로 SQL로 읽는 경험 뒤에 어떤 설계가 깔려 있는지 따라간다.

backend

피지독, 포스트그레스를 수평 확장시키겠다고 550만 달러 투자 유치

피지독은 포스트그레스 앞단에 프록시를 두고 샤딩과 라우팅을 처리해 수평 확장을 가능하게 하겠다는 오픈소스 프로젝트다. 이미 프로덕션에서 초당 200만 건이 넘는 쿼리를 처리하고, 확인된 규모만 20테라바이트 이상을 샤딩했다고 밝히며 550만 달러 투자를 공개했다.

backend

펜타시스템, EDB 포스트그레SQL로 국내 엔터프라이즈 DB 전환 시장 공략

펜타시스템테크놀러지가 EDB와 파트너 계약을 맺고 국내에 EDB 포스트그레SQL 기반 데이터 플랫폼을 공급한다. 기존 상용 DBMS 정책 변화로 비용 부담이 커진 기업들을 겨냥해, 오픈소스 기반 엔터프라이즈 데이터 플랫폼 전환 수요를 잡겠다는 전략이다. 금융, 공공, 제조, 유통, 클라우드, AI 데이터 분석 환경까지 적용 범위를 넓히려는 움직임이다.