본문으로 건너뛰기
피드

해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향

general 약 5분
vote
0
댓글
북마크

해커뉴스 글 3만2000개와 댓글 34만 개를 분석했더니, 부정적 정서의 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높게 나왔다. 여러 감성 분석 모델을 돌려도 부정적 글 비중이 약 65%로 높게 유지됐고, 작성자는 이를 해커뉴스의 독성이라기보다 기술 비판과 회의주의가 주목받는 구조로 해석한다.

  • 1

    부정적 정서의 해커뉴스 글은 평균 점수에서 전체 평균보다 27% 높았다

  • 2

    3개 트랜스포머 모델과 3개 대규모 언어 모델을 비교해도 부정적 분포가 유지됐다

  • 3

    부정성은 욕설이나 공격보다 기술 비판, 산업 관행 불만, API 좌절감 같은 실질적 회의주의에 가까웠다

  • 4

    22GB 해커뉴스 스냅샷 데이터로 분포, 불평등 지표, 시간대별 패턴을 추가 검증했다

  • 해커뉴스에서 부정적인 글이 더 잘 먹힌다는 관찰이 숫자로 나옴

    • 부정적 정서로 분류된 글의 평균 점수는 35.6점
    • 전체 평균은 28점이라, 부정적 글이 약 27% 더 높은 성과를 낸 셈
    • 분석 대상은 글 3만2000개와 댓글 34만 개라, 그냥 느낌만으로 던진 얘기는 아님
  • 더 흥미로운 건 부정적 글 비중 자체가 꽤 높다는 점임

    • 전체 글의 거의 65%가 부정적 정서로 잡힘
    • 작성자도 분류기가 부정 쪽으로 기울었을 수 있다고 단서를 달았지만, 여섯 개 모델에서 비슷한 패턴이 반복됐다고 봄
    • 즉 ‘모델 하나가 이상하게 봤다’로 끝내긴 어려운 결과임
  • 비교한 모델 구성이 꽤 빡빡함

    • 트랜스포머 기반 분류기는 DistilBERT, BERT Multi, RoBERTa를 사용
    • 대규모 언어 모델(LLM)은 Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B를 사용
    • 실제 대시보드에는 Cloudflare 기반 파이프라인에서 효율적으로 돌릴 수 있는 DistilBERT 결과를 쓴다고 함

중요

> 부정적 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높았다는 게 핵심 수치임. 커뮤니티에서 ‘비판적인 제목이 왜 잘 뜨는지’에 대한 꽤 직관적인 설명이 됨.

  • 여기서 말하는 ‘부정성’은 악플이나 인신공격과는 좀 다름

    • 기술에 대한 비판, 발표에 대한 회의, 업계 관행에 대한 불만, API 쓰다가 터지는 좌절감 같은 것들이 주로 잡힘
    • 해커뉴스 특유의 냉소적인 기술 검토 문화에 가깝고, 작성자도 대부분은 독성보다 실질적인 비판에 가깝다고 봄
    • 다만 부정적인 프레이밍이 참여를 만든 건지, 논쟁적인 주제가 애초에 부정성과 관심을 동시에 끌어온 건지는 분리하기 어렵다고 봄
  • 작성자는 별도로 22GB짜리 해커뉴스 SQLite 스냅샷도 검증에 활용함

    • HackerBook이라는 정적 스냅샷이라 시간 흐름 분석은 못 했음
    • 그래서 생명주기 분석, 초반 속도 예측, 점수 감소 곡선 피팅은 제외
    • 대신 점수 분포, 관심 불평등, 시간대별 게시 패턴 같은 분포형 통계는 계산 가능했다고 함
  • 이 글이 개발자 입장에서 재밌는 이유는 커뮤니티 ‘흥행 공식’을 감정이 아니라 데이터로 까본다는 점임

    • 기술 글이 잘 퍼지는 이유가 정보량 때문만은 아닐 수 있음
    • 회의, 비판, 불편함을 정확히 건드리는 글이 토론과 클릭을 더 많이 끌어낼 수 있음
    • 제품 발표글이나 오픈소스 홍보글을 쓰는 사람에게도 꽤 쓸 만한 힌트임

기술 맥락

  • 이 분석의 핵심 선택은 감성 분류를 모델 하나에 맡기지 않았다는 점이에요. 감성 분석은 모델마다 기준이 흔들릴 수 있거든요. 그래서 DistilBERT, RoBERTa 같은 전통적인 분류기와 Llama, Mistral, Gemma 같은 대규모 언어 모델을 같이 돌려 패턴이 유지되는지 본 거예요.

  • 실제 대시보드에는 DistilBERT를 썼다는 것도 현실적인 선택이에요. 대규모 언어 모델이 더 그럴듯한 판단을 할 수는 있지만, 3만 개 넘는 글을 계속 처리하려면 비용과 지연 시간이 커지거든요. Cloudflare 기반 파이프라인에서는 작고 빠른 모델이 운영상 더 맞는 선택이었을 가능성이 커요.

  • HackerBook 데이터로는 시간 흐름을 볼 수 없었다는 제약도 중요해요. 정적 스냅샷은 전체 분포나 불평등은 잘 보여주지만, 글이 언제부터 뜨기 시작했는지 같은 생명주기 분석에는 약하거든요. 그래서 작성자는 가능한 분석과 불가능한 분석을 나눠서 다뤘어요.

개발자 커뮤니티에서 ‘비판적인 글이 왜 더 잘 퍼지나’를 숫자로 보여주는 사례다. 제품 발표나 기술 홍보 글을 올릴 때도, 단순한 장점 나열보다 사람들이 이미 느끼는 불편과 회의감을 건드리는 쪽이 반응을 더 만들 수 있다는 얘기다.

댓글

댓글

댓글을 불러오는 중...

general

블랙홀 안에 숨어 있을지도 모르는 ‘이상한 소수’ 이야기

소수(prime number)를 다루는 정수론이 블랙홀 특이점 주변의 혼돈과 연결될 수 있다는 연구들이 잇따라 나오고 있다. 리만 제타 함수, 프리몬 가스, 가우스 소수 같은 수학적 구조가 양자중력 문제를 푸는 언어가 될지도 모른다는 게 핵심이다.

general

마이크로소프트, 맥용 오피스 2019를 2026년에 보기 전용으로 바꾼다

마이크로소프트 오피스 2019·2021 맥 버전 일부가 2026년 7월 13일 라이선스 검증 인증서 만료로 ‘제한 기능 모드’에 들어간다. 오피스 2019 맥 사용자는 업데이트로 해결할 수 없고, 문서를 열어 볼 수는 있지만 편집과 저장은 막히는 구조라 일회성 구매 소프트웨어의 신뢰 문제가 다시 떠올랐다.

general

충청북도, AI 디지털 배움터 5곳으로 확대

충청북도가 AI 디지털 배움터를 기존 2곳에서 5곳으로 늘린다. 진천, 옥천, 영동에 새 공간을 만들고 청년 구직자, 소상공인, 고령층을 대상으로 무료 교육을 제공한다.

general

AI 시대 진로 고민, 대학생 공청회에서 나온 현실적인 조언들

서울대에서 열린 ‘20대의 고민 공청회’에서 AI 시대의 고용 변화와 진로 전략이 논의됐다. 연사들은 신규 인력이 전문가로 성장할 기회가 줄어드는 위험을 짚는 한편, AI를 잘 활용하고 인간만의 판단력·신뢰·직관을 키우는 전략이 필요하다고 말했다.

general

수십 년 된 플로피 디스크를 살리는 일은 생각보다 훨씬 빡세다

케임브리지대 도서관의 레온티엔 탈붐은 약 1년 동안 플로피 디스크 보존 프로젝트 ‘퓨처 노스탤지어’를 이끌었다. 물리 매체가 썩어가는 문제뿐 아니라, 오래된 파일 시스템과 장비를 다루는 암묵지가 사라지는 문제까지 같이 다뤄야 한다는 점이 핵심이다.