본문으로 건너뛰기
피드

연구자들이 LLM으로 Reddit·HN 사용자를 대규모 신원 식별하는 데 성공

security 약 4분
vote
0
댓글
북마크

ETH Zurich와 Anthropic 연구진이 LLM 기반 4단계 파이프라인으로 익명 온라인 사용자의 신원을 대규모로 식별할 수 있음을 증명함. HN→LinkedIn 매칭에서 99% 정밀도에 45.1% 재현율을 달성했고, 완전 자율 에이전트로는 건당 1~4달러에 90% 정밀도로 67% 사용자를 식별함.

  • 1

    4단계 파이프라인: 신원 신호 추출 → 임베딩 검색 → 추론 → 신뢰도 보정

  • 2

    HN→LinkedIn 99% 정밀도에서 45.1% 재현율, 기존 방법 대비 수백 배 향상

  • 3

    완전 자율 에이전트로 건당 1~4달러에 67% 사용자 식별 (90% 정밀도)

  • 4

    후보 1억 명까지 로그-선형 스케일링, ~27% 재현율 추정

  • 5

    효과적인 방어책이 아직 없으며 내부 고발자·활동가 등에게 심각한 위협

  • ETH Zurich와 Anthropic 연구진이 LLM을 이용한 대규모 익명 사용자 신원 식별(deanonymization)이 가능하다는 걸 증명한 논문임. 익명성이 사실상 끝났다는 이야기
  • 파이프라인은 4단계임: 텍스트에서 신원 신호 추출 → 임베딩(embedding)으로 후보 검색 → 후보들에 대해 추론 → 신뢰도 보정
  • 주요 결과가 충격적임:
    • HN → LinkedIn 매칭: 99% 정밀도에서 45.1% 재현율 (987건 쿼리). 기존 방법은 0.1%
    • Reddit 영화 커뮤니티: 99% 정밀도에서 2.8% 재현율. 기존 방법은 0%
    • Reddit 시간분할 매칭 (과거↔미래 활동): 99% 정밀도에서 38.4% 재현율. 기존 방법은 0.2%
    • 완전 자율 에이전트: HN 프로필만으로 90% 정밀도에서 67% 사용자 식별. 비용은 건당 1~4달러
  • 데이터가 많을수록 식별이 쉬움. 영화 10개 이상 공유한 사용자는 48% 재현율 vs 1개만 공유한 사용자는 3%
  • 규모 확장성도 있음. 로그-선형(log-linearly)으로 스케일링돼서 후보 100만 명이면 90% 정밀도에서 ~35% 재현율, 1억 명이면 ~27% 재현율로 추정
  • 추론 능력(reasoning)을 높이면 성능이 올라감. 고수준 추론 시 99% 정밀도에서 재현율이 1.4% → 2.8%로 상승
  • Anthropic의 AI Interviewer 데이터셋에서 익명화된 인터뷰 만으로 125명 중 최소 9명을 실제로 식별해냄
  • 위협 대상은 내부 고발자, 활동가, 학대 생존자 등 익명성에 안전이 달린 사람들임. 정부가 반체제 인사를 추적하거나, 기업이 비판자를 식별하거나, 스토커가 피해자를 찾는 데 악용 가능
  • 현재 효과적인 방어책이 없음. k-익명성(k-anonymity)이나 차등 프라이버시(differential privacy)는 구조화된 데이터 기준으로 설계된 것이라 텍스트의 의미론적 신호까지는 막지 못함. 플랫폼 API 속도 제한이 도움은 되지만 근본 해결은 아님
  • 핵심은 LLM이 초인적 능력을 가진 게 아니라 비용을 극단적으로 낮춘 것임. 숙련된 조사관이 몇 시간 걸리던 작업이 1~4달러로 자동화됐다는 게 진짜 문제

LLM이 초인적 능력을 가진 게 아니라 숙련된 조사관의 작업을 1~4달러로 자동화한 것이 핵심 위협임. 수십 년간 보호막이었던 '실질적 무명성(practical obscurity)'이 더 이상 유효하지 않음.

댓글

댓글

댓글을 불러오는 중...

security

AI 에이전트 보안, 이제 권한이 아니라 ‘실행 증거’ 싸움으로 간다

오페이크가 AI 에이전트의 ID, 실행 환경, 도구 호출, 정책 적용 여부를 암호학적으로 검증하는 오페이크 3.0을 공개했다. 핵심은 에이전트 매니페스트와 컨피덴셜 MCP라는 두 오픈소스 기술이며, 기밀 컴퓨팅과 서명된 실행 증거를 결합해 감사자나 규제기관도 독립적으로 확인할 수 있게 하는 방향이다. AI 에이전트가 업무 시스템과 데이터를 직접 만지는 시대에는 접근 권한보다 ‘무슨 일을 했는지 증명할 수 있느냐’가 더 중요해지고 있다.

security

취약점 제보가 더 이상 특별하지 않은 시대가 왔다

전 Go 보안팀 리드였던 필리포 발소르다가 LLM 이후 취약점 제보의 의미가 바뀌었다고 주장한다. 예전에는 희소한 통찰과 비공개 제보가 귀했지만, 이제는 잠재 취약점을 찾는 것보다 실제 영향도를 빠르게 가려내는 triage가 병목이라는 얘기다.

security

스패로우, AI가 만든 코드 취약점 잡는 ‘Sparrow MCP’ 출시

스패로우가 AI 코딩 에이전트가 생성한 코드의 보안 취약점과 사용된 오픈소스를 실시간으로 검사하는 보안 어시스턴트 ‘Sparrow MCP’를 출시했다. 핵심 기능은 취약점 분석과 소프트웨어 자재명세서(SBOM) 생성이며, 앤트로픽의 모델 컨텍스트 프로토콜(MCP)을 지원하는 AI와 연결할 수 있다는 점이다. AI 코딩이 빨라질수록 보안 검증과 오픈소스 추적이 개발 파이프라인 안으로 더 깊게 들어오는 흐름이다.

security

오픈AI, 오픈소스 취약점 고치는 ‘패치 더 플래닛’ 시작

오픈AI가 트레일 오브 비츠와 함께 주요 오픈소스 프로젝트의 취약점을 AI로 찾고, 사람 검토를 거쳐 실제 패치까지 연결하는 프로그램을 시작했다. 파이썬, 고, cURL, 시그스토어, NATS 서버 같은 핵심 프로젝트가 초기 대상이고, 지금까지 수백 건의 보안 이슈와 수십 건의 병합된 패치가 나왔다. 핵심은 AI가 보안팀을 대체하는 게 아니라, 탐지·검증·패치·공개 조율을 빠르게 만드는 보조 엔진이라는 점이다.

security

오픈AI, 취약점 찾기부터 패치까지 돕는 ‘코덱스 시큐리티’ 공개

오픈AI가 사이버보안 이니셔티브 데이브레이크를 확대하면서 보안 전용 도구 코덱스 시큐리티와 GPT-5.5-사이버를 공개했다. 목표는 취약점 탐지에서 끝나는 게 아니라 검증, 위험도 평가, 패치 개발, 테스트, 배포까지 AI로 지원하는 것이다. cURL, Go, Python, Sigstore 등 30개 이상 오픈소스 프로젝트도 패치 지원 프로그램에 참여한다.