---
title: "해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향"
published: 2026-05-29T21:16:23.000Z
canonical: https://jeff.news/article/3413
---
# 해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향

해커뉴스 글 3만2000개와 댓글 34만 개를 분석했더니, 부정적 정서의 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높게 나왔다. 여러 감성 분석 모델을 돌려도 부정적 글 비중이 약 65%로 높게 유지됐고, 작성자는 이를 해커뉴스의 독성이라기보다 기술 비판과 회의주의가 주목받는 구조로 해석한다.

- 해커뉴스에서 부정적인 글이 더 잘 먹힌다는 관찰이 숫자로 나옴
  - 부정적 정서로 분류된 글의 평균 점수는 35.6점
  - 전체 평균은 28점이라, 부정적 글이 약 27% 더 높은 성과를 낸 셈
  - 분석 대상은 글 3만2000개와 댓글 34만 개라, 그냥 느낌만으로 던진 얘기는 아님

- 더 흥미로운 건 부정적 글 비중 자체가 꽤 높다는 점임
  - 전체 글의 거의 65%가 부정적 정서로 잡힘
  - 작성자도 분류기가 부정 쪽으로 기울었을 수 있다고 단서를 달았지만, 여섯 개 모델에서 비슷한 패턴이 반복됐다고 봄
  - 즉 ‘모델 하나가 이상하게 봤다’로 끝내긴 어려운 결과임

- 비교한 모델 구성이 꽤 빡빡함
  - 트랜스포머 기반 분류기는 DistilBERT, BERT Multi, RoBERTa를 사용
  - 대규모 언어 모델(LLM)은 Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B를 사용
  - 실제 대시보드에는 Cloudflare 기반 파이프라인에서 효율적으로 돌릴 수 있는 DistilBERT 결과를 쓴다고 함

> [!IMPORTANT]
> 부정적 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높았다는 게 핵심 수치임. 커뮤니티에서 ‘비판적인 제목이 왜 잘 뜨는지’에 대한 꽤 직관적인 설명이 됨.

- 여기서 말하는 ‘부정성’은 악플이나 인신공격과는 좀 다름
  - 기술에 대한 비판, 발표에 대한 회의, 업계 관행에 대한 불만, API 쓰다가 터지는 좌절감 같은 것들이 주로 잡힘
  - 해커뉴스 특유의 냉소적인 기술 검토 문화에 가깝고, 작성자도 대부분은 독성보다 실질적인 비판에 가깝다고 봄
  - 다만 부정적인 프레이밍이 참여를 만든 건지, 논쟁적인 주제가 애초에 부정성과 관심을 동시에 끌어온 건지는 분리하기 어렵다고 봄

- 작성자는 별도로 22GB짜리 해커뉴스 SQLite 스냅샷도 검증에 활용함
  - HackerBook이라는 정적 스냅샷이라 시간 흐름 분석은 못 했음
  - 그래서 생명주기 분석, 초반 속도 예측, 점수 감소 곡선 피팅은 제외
  - 대신 점수 분포, 관심 불평등, 시간대별 게시 패턴 같은 분포형 통계는 계산 가능했다고 함

- 이 글이 개발자 입장에서 재밌는 이유는 커뮤니티 ‘흥행 공식’을 감정이 아니라 데이터로 까본다는 점임
  - 기술 글이 잘 퍼지는 이유가 정보량 때문만은 아닐 수 있음
  - 회의, 비판, 불편함을 정확히 건드리는 글이 토론과 클릭을 더 많이 끌어낼 수 있음
  - 제품 발표글이나 오픈소스 홍보글을 쓰는 사람에게도 꽤 쓸 만한 힌트임

---

## 기술 맥락

- 이 분석의 핵심 선택은 감성 분류를 모델 하나에 맡기지 않았다는 점이에요. 감성 분석은 모델마다 기준이 흔들릴 수 있거든요. 그래서 DistilBERT, RoBERTa 같은 전통적인 분류기와 Llama, Mistral, Gemma 같은 대규모 언어 모델을 같이 돌려 패턴이 유지되는지 본 거예요.

- 실제 대시보드에는 DistilBERT를 썼다는 것도 현실적인 선택이에요. 대규모 언어 모델이 더 그럴듯한 판단을 할 수는 있지만, 3만 개 넘는 글을 계속 처리하려면 비용과 지연 시간이 커지거든요. Cloudflare 기반 파이프라인에서는 작고 빠른 모델이 운영상 더 맞는 선택이었을 가능성이 커요.

- HackerBook 데이터로는 시간 흐름을 볼 수 없었다는 제약도 중요해요. 정적 스냅샷은 전체 분포나 불평등은 잘 보여주지만, 글이 언제부터 뜨기 시작했는지 같은 생명주기 분석에는 약하거든요. 그래서 작성자는 가능한 분석과 불가능한 분석을 나눠서 다뤘어요.

## 핵심 포인트

- 부정적 정서의 해커뉴스 글은 평균 점수에서 전체 평균보다 27% 높았다
- 3개 트랜스포머 모델과 3개 대규모 언어 모델을 비교해도 부정적 분포가 유지됐다
- 부정성은 욕설이나 공격보다 기술 비판, 산업 관행 불만, API 좌절감 같은 실질적 회의주의에 가까웠다
- 22GB 해커뉴스 스냅샷 데이터로 분포, 불평등 지표, 시간대별 패턴을 추가 검증했다

## 인사이트

개발자 커뮤니티에서 ‘비판적인 글이 왜 더 잘 퍼지나’를 숫자로 보여주는 사례다. 제품 발표나 기술 홍보 글을 올릴 때도, 단순한 장점 나열보다 사람들이 이미 느끼는 불편과 회의감을 건드리는 쪽이 반응을 더 만들 수 있다는 얘기다.