해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향

general 2026-05-29 약 5분

 tags

#hacker-news #sentiment #llm #analytics #cloudflare

vote

북마크

해커뉴스 글 3만2000개와 댓글 34만 개를 분석했더니, 부정적 정서의 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높게 나왔다. 여러 감성 분석 모델을 돌려도 부정적 글 비중이 약 65%로 높게 유지됐고, 작성자는 이를 해커뉴스의 독성이라기보다 기술 비판과 회의주의가 주목받는 구조로 해석한다.

1
부정적 정서의 해커뉴스 글은 평균 점수에서 전체 평균보다 27% 높았다
2
3개 트랜스포머 모델과 3개 대규모 언어 모델을 비교해도 부정적 분포가 유지됐다
3
부정성은 욕설이나 공격보다 기술 비판, 산업 관행 불만, API 좌절감 같은 실질적 회의주의에 가까웠다
4
22GB 해커뉴스 스냅샷 데이터로 분포, 불평등 지표, 시간대별 패턴을 추가 검증했다

해커뉴스에서 부정적인 글이 더 잘 먹힌다는 관찰이 숫자로 나옴
- 부정적 정서로 분류된 글의 평균 점수는 35.6점
- 전체 평균은 28점이라, 부정적 글이 약 27% 더 높은 성과를 낸 셈
- 분석 대상은 글 3만2000개와 댓글 34만 개라, 그냥 느낌만으로 던진 얘기는 아님
더 흥미로운 건 부정적 글 비중 자체가 꽤 높다는 점임
- 전체 글의 거의 65%가 부정적 정서로 잡힘
- 작성자도 분류기가 부정 쪽으로 기울었을 수 있다고 단서를 달았지만, 여섯 개 모델에서 비슷한 패턴이 반복됐다고 봄
- 즉 ‘모델 하나가 이상하게 봤다’로 끝내긴 어려운 결과임
비교한 모델 구성이 꽤 빡빡함
- 트랜스포머 기반 분류기는 DistilBERT, BERT Multi, RoBERTa를 사용
- 대규모 언어 모델(LLM)은 Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B를 사용
- 실제 대시보드에는 Cloudflare 기반 파이프라인에서 효율적으로 돌릴 수 있는 DistilBERT 결과를 쓴다고 함

❗중요

> 부정적 글이 평균 35.6점을 받아 전체 평균 28점보다 27% 높았다는 게 핵심 수치임. 커뮤니티에서 ‘비판적인 제목이 왜 잘 뜨는지’에 대한 꽤 직관적인 설명이 됨.

여기서 말하는 ‘부정성’은 악플이나 인신공격과는 좀 다름
- 기술에 대한 비판, 발표에 대한 회의, 업계 관행에 대한 불만, API 쓰다가 터지는 좌절감 같은 것들이 주로 잡힘
- 해커뉴스 특유의 냉소적인 기술 검토 문화에 가깝고, 작성자도 대부분은 독성보다 실질적인 비판에 가깝다고 봄
- 다만 부정적인 프레이밍이 참여를 만든 건지, 논쟁적인 주제가 애초에 부정성과 관심을 동시에 끌어온 건지는 분리하기 어렵다고 봄
작성자는 별도로 22GB짜리 해커뉴스 SQLite 스냅샷도 검증에 활용함
- HackerBook이라는 정적 스냅샷이라 시간 흐름 분석은 못 했음
- 그래서 생명주기 분석, 초반 속도 예측, 점수 감소 곡선 피팅은 제외
- 대신 점수 분포, 관심 불평등, 시간대별 게시 패턴 같은 분포형 통계는 계산 가능했다고 함
이 글이 개발자 입장에서 재밌는 이유는 커뮤니티 ‘흥행 공식’을 감정이 아니라 데이터로 까본다는 점임
- 기술 글이 잘 퍼지는 이유가 정보량 때문만은 아닐 수 있음
- 회의, 비판, 불편함을 정확히 건드리는 글이 토론과 클릭을 더 많이 끌어낼 수 있음
- 제품 발표글이나 오픈소스 홍보글을 쓰는 사람에게도 꽤 쓸 만한 힌트임

기술 맥락

이 분석의 핵심 선택은 감성 분류를 모델 하나에 맡기지 않았다는 점이에요. 감성 분석은 모델마다 기준이 흔들릴 수 있거든요. 그래서 DistilBERT, RoBERTa 같은 전통적인 분류기와 Llama, Mistral, Gemma 같은 대규모 언어 모델을 같이 돌려 패턴이 유지되는지 본 거예요.
실제 대시보드에는 DistilBERT를 썼다는 것도 현실적인 선택이에요. 대규모 언어 모델이 더 그럴듯한 판단을 할 수는 있지만, 3만 개 넘는 글을 계속 처리하려면 비용과 지연 시간이 커지거든요. Cloudflare 기반 파이프라인에서는 작고 빠른 모델이 운영상 더 맞는 선택이었을 가능성이 커요.
HackerBook 데이터로는 시간 흐름을 볼 수 없었다는 제약도 중요해요. 정적 스냅샷은 전체 분포나 불평등은 잘 보여주지만, 글이 언제부터 뜨기 시작했는지 같은 생명주기 분석에는 약하거든요. 그래서 작성자는 가능한 분석과 불가능한 분석을 나눠서 다뤘어요.

개발자 커뮤니티에서 ‘비판적인 글이 왜 더 잘 퍼지나’를 숫자로 보여주는 사례다. 제품 발표나 기술 홍보 글을 올릴 때도, 단순한 장점 나열보다 사람들이 이미 느끼는 불편과 회의감을 건드리는 쪽이 반응을 더 만들 수 있다는 얘기다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

general 2026-07-13

폐쇄된 클라이밋닷거브, 공공 데이터 덕분에 클라이밋닷어스로 되살아나다

미국 정부의 기후 정보 사이트 Climate.gov가 예산 삭감으로 내려간 뒤, 전직 NOAA 관련자들이 Climate.us로 핵심 자료를 복원했어. 15년 넘게 쌓인 기후 지도, 교육 자료, 기후 지표 보고서, 삭제된 제5차 국가기후평가까지 되살린 배경에는 미국 정부 데이터가 법적으로 퍼블릭 도메인이라는 점이 있었어. 다만 운영은 기부에 의존하고 있어, 공공 인프라를 민간이 임시로 떠받치는 불안정한 구조도 같이 드러나.

general 2026-07-13

AI 시대에도 인간 관리자가 남는 이유는 결국 ‘책임’ 때문임

생성형 AI가 기업 경영의 많은 판단을 도와도, 인간 관리자의 역할이 사라지지는 않는다는 주장이다. 글은 공감, 검증, 실행, 책임이라는 네 가지 영역에서 AI가 아직 인간 관리자를 대체하기 어렵다고 설명한다.

general 2026-07-12

서로 1만 달러 주고받으면 매출 1만 달러? 스타트업 매출 놀이를 비꼰 풍자 사이트

LARP는 창업자끼리 같은 금액을 서로 주고받은 것처럼 장부에 기록해 매출을 만든다는 설정의 풍자 사이트다. 실제 제품, 고객, 현금 이동 없이도 연간 반복 매출(ARR)을 부풀릴 수 있다는 식으로, 스타트업의 매출 인정과 상호 거래 관행을 날카롭게 비꼰다.

general 2026-07-13

뱅크오브아메리카, 소버린 클라우드 수요 보고 아이오노스에 매수 의견

뱅크오브아메리카가 유럽 웹 호스팅·도메인 기업 아이오노스에 매수 의견과 목표주가 37유로를 제시했다. 핵심 논리는 중소기업 대상 웹 서비스, AI 업셀링, 소버린 클라우드 수요가 맞물리며 2025년부터 2028년까지 매출과 이익이 성장할 수 있다는 것이다.

general 2026-07-13

SDT·KT·스패로우까지, 국내 보안·클라우드·양자 업계 단신 모음

SDT는 양자 클라우드 플랫폼 큐레카에 양자내성암호를 적용하고 CUDA-Q 교육 모듈을 3개 국어로 제공하기로 했다. KT, 스패로우, 매스웍스, 아이씨티케이, 오케스트로 클라우드도 각각 메일보안, 앱 보안, 디지털 트윈, 양자보안, 공공 클라우드 전환 관련 소식을 냈다.

해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

해커뉴스는 부정적인 글이 더 잘 먹힌다? 3.2만 개 글로 본 관심의 편향

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사