본문으로 건너뛰기
피드

실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

security 약 8분

위트푸가 2024년 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋 'Precinct 6'을 허깅페이스에 아파치 2.0으로 공개했다. 시스로그·윈도우 보안 감사·VPC 플로 로그·엔드포인트 원격측정 같은 다중 로그 소스와 출처 그래프, MITRE ATT&CK 매핑 인시던트가 하나로 묶여 있다. 캔터베리대학교와 공동 제작했고 정제 코드까지 오픈소스로 공개됐다.

  • 1

    실제 공격 트래픽 기반 1억 건 구조화·라벨링 데이터셋 — 기존 공개 데이터셋의 '합성/실험실' 한계를 보완

  • 2

    시그널(로그)·그래프 노드·그래프 에지·인시던트 4개 하위 데이터로 구성, 다중 로그 소스 통합 분석 가능

  • 3

    인시던트에 MITRE ATT&CK 기법·전술 매핑 + SOAR 수명주기 메타데이터까지 포함돼 표준 벤치마크 가능

  • 4

    아파치 2.0 라이선스로 학술·상업·정부 용도 무료 활용 가능, 정제 코드도 오픈소스로 검증 가능

  • 5

    국내 보안 업계의 AI 탐지·보안관제 자동화·SOAR 고도화 모델 검증에 동일 기준 벤치마크로 활용 가능

  • 보안 분석 기업 위트푸(WitFoo)가 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋을 오픈소스로 공개함
    • 이름은 프리싱트 6(Precinct 6) 사이버보안 데이터셋
    • 허깅페이스에서 아파치 2.0 라이선스로 제공, 정제 코드까지 깃허브에 공개
    • 2026년 초 공개된 200만 건 초기 데이터셋을 50배 확장한 버전
    • 뉴질랜드 캔터베리대학교와 공동 제작

왜 중요한가 — 실험실 데이터 vs 실제 공격

  • 보안 AI 연구의 고질적 문제 — 공개 데이터 대부분이 실험실 환경 or 시뮬레이션 트래픽 기반
    • 실제 운영망에서 나타나는 공격자의 횡적 이동(lateral movement), 시간적 관계, 이벤트 상관성을 반영 못 함
    • 침입 탐지 모델이 벤치마크에선 잘 되지만 실전에서 일반화가 안 되는 원인
  • 프리싱트 6은 2024년 7~8월 실제 공격 트래픽을 기반으로 구성됨
    • 참여 조직 보호를 위해 정제는 거쳤지만 공격 패턴·시간 관계·행동 특성은 연구 목적에 맞게 보존

4개 통합 하위 데이터셋으로 구성

  • 시그널(Signals) 1억 건 — 정규화된 로그 기록
    • 시스로그(Syslog), 윈도우 보안 감사(Windows Security Auditing), VPC 플로 로그, 엔드포인트 원격측정 포함
    • 네트워크 메타데이터, 호스트명, 사용자명, 심각도, 정제된 메시지 내용 탑재
  • 그래프 에지(Graph Edges) + 그래프 노드(Graph Nodes)
    • 호스트·사용자·프로세스·네트워크 연결 사이 관계를 나타내는 출처 그래프(provenance graph) 구조 제공
    • 그래프 신경망, 시간 그래프 분석, 횡적 이동 탐지 연구에 바로 활용 가능
  • 인시던트(Incidents) — 상관 분석된 보안 이벤트 모음
    • 이진 분류 라벨, 신뢰 점수, MITRE ATT&CK 기법·전술 매핑, 의심 점수
    • SOAR(보안 오케스트레이션·자동화·대응) 수명주기 메타데이터까지 포함

어디에 쓰이나

  • 침입 탐지 & 이상 행위 탐지 — 1억 건 라벨 이벤트로 지도/비지도 학습 벤치마킹
  • 그래프 기반 위협 탐지 — 출처 그래프로 APT(지능형 지속 위협) 탐지 연구
  • 보안 운영용 LLM 연구 — 정제된 메시지로 로그 자동 분류, 경보 요약, 자연어 질의 훈련/평가
  • 재현성 확보 — 동일 데이터셋 위에서 서로 다른 탐지 알고리즘·피처 엔지니어링·모델 아키텍처 비교 가능

중요

> 위트푸는 참여 조직 신원을 완전히 정제하면서도 통계적 속성·시간 관계·행동 패턴은 보존했다고 밝힘. 정제 코드베이스 전체를 오픈소스로 풀어서 연구자가 "어떻게 정제했는지"도 검증 가능

업계 인사이트

  • 찰스 헤링(WitFoo 공동창업자) — "10년간 포춘 500·대학·정부 기관과 4,000건 이상 실험하며 엠퍼세틱 프로세싱(Empathetic Processing) 파이프라인 개발. 이 데이터셋이 그 결과물"
    • "사이버보안의 가장 큰 병목은 컴퓨팅이나 알고리즘이 아니라 현실적 데이터 부족"이라고 강조
  • 에티엔 보르드(캔터베리대 부교수) — "사이버보안 데이터셋 대부분이 합성이거나 통제 실험 기반이라 일반화가 제한됨. 실제 공격 트래픽 대규모 데이터셋은 매우 드물고, 이번 공개로 그래프 기반 위협 모델링부터 AI 탐지 시스템 평가까지 이전엔 어려웠던 연구 경로가 열림"

한국 보안 업계 맥락

  • 국내에서도 AI 기반 탐지, 보안관제 자동화, 위협 인텔리전스, SOAR 고도화 수요가 커지는 중
    • 모델 개발/검증 단계에서 실제 공격 흐름을 담은 대규모 공개 데이터 부족이 재현성과 성능 비교의 걸림돌이었음
  • 프리싱트 6은 국내 연구기관·보안 기업·대학이 동일 기준으로 침입 탐지 모델을 비교할 수 있는 기반을 제공
    • 단일 로그 기반 데이터셋과 달리 다중 로그 소스 + 그래프 관계 + MITRE ATT&CK 매핑 + 인시던트 라벨이 함께 제공된다는 점이 차별화

기술 맥락

이 데이터셋이 연구자들을 흥분시키는 이유는 단순히 규모가 크기 때문이 아니에요. 기존 공개 보안 데이터셋(CICIDS, UNSW-NB15 등)은 트래픽 생성기로 만든 합성 데이터가 기본이었어요. 공격 페이로드는 실제에 가까워도 공격자의 "리듬"이 없었죠 — 실제 APT 공격은 며칠에 걸쳐 조금씩 권한을 넓혀가는데 합성 데이터는 그 시간 구조를 못 담거든요. 프리싱트 6이 2024년 7~8월 연속 관찰 트래픽을 그대로 쓴 게 그래서 의미가 커요.

그래프 데이터 제공이 특히 주목할 만해요. 최근 보안 AI 연구의 핫 토픽이 출처 그래프(provenance graph) 기반 탐지인데, 이건 "누가 어떤 파일을 어떤 프로세스로 열었는가" 같은 시스템 호출 관계를 그래프로 재구성해서 이상 행위를 잡는 방식이에요. 문제는 이런 그래프 데이터를 실제 기업 환경에서 얻기가 거의 불가능하다는 거였는데, 이번 공개로 GNN(Graph Neural Network) 기반 보안 모델 연구가 한 단계 가속될 수 있어요.

MITRE ATT&CK 매핑이 붙어있다는 점도 놓치면 안 돼요. 인시던트마다 "이건 TA0002 Execution의 T1059.003 Command and Scripting Interpreter 기법"처럼 전술·기법 라벨이 달려있거든요. 덕분에 연구자는 "이 모델이 어떤 공격 유형에서 강하고 어디서 약한지"를 표준 분류체계로 비교할 수 있어요. 기존엔 각 논문마다 평가 기준이 달라서 비교가 어려웠는데 이게 해소되는 거죠.

라이선스가 아파치 2.0이라는 점도 중요해요. 학술 연구뿐 아니라 상업·정부 용도로 무료 활용이 가능하거든요. 한국의 국가정보원 산하 KISIS 연구기관이나 민간 보안 기업이 내부 탐지 모델을 이 벤치마크로 검증해서 공개하면, 같은 기준으로 업계 표준이 형성되는 효과를 기대할 수 있어요.

이 데이터셋의 진짜 가치는 규모가 아니라 '시간 구조'를 살린 연속 관찰 공격 트래픽이라는 점이다. 합성 데이터로는 재현할 수 없는 APT 공격의 리듬이 담겨 있고, 특히 출처 그래프가 함께 제공돼 GNN 기반 위협 탐지 연구가 가속될 가능성이 크다.

댓글

댓글

댓글을 불러오는 중...

security

10년 CSAP 해체, 공공 클라우드 인증 '국정원' 단일화 — 2027년 7월 시행

공공 클라우드 진입 검증이 과기정통부 CSAP + 국정원 보안검증 이중 체계에서 국정원 단일 체계로 일원화됨. 2027년 7월부터 시행, CSAP 별표 4는 국정원으로 이관되고 별표 1~3은 ISMS 자율 인증으로 전환. 기존 CSAP 인증은 5년 유효기간 그대로 인정.

security

앤트로픽이 AI 모델 '미토스' 출시 봉인 — 자율 제로데이 발굴 능력이 임계점 넘었다

앤트로픽이 Opus 상위 모델 '미토스'를 '전례 없는 사이버 위험' 이유로 출시 중단. USAMO 97.6%, SWE-bench 93.9%를 기록하며 OpenBSD 27년 버그 등 수천 개 제로데이를 자율 발굴했고 네 개 취약점을 체인으로 엮어 샌드박스 탈출까지 해버림. Glasswing 제한 공개 명단에 한국 기업은 없음.

security

Vercel 해킹 사고 — 서드파티 AI OAuth 앱 탈취로 내부 침투, 환경변수 평문 노출

Vercel이 내부 시스템 침해를 공식 확인했다. 서드파티 AI 플랫폼 Context.ai 해킹으로 직원 Google Workspace 계정이 탈취됐고, 공격자는 'non-sensitive'로 표시돼 암호화되지 않은 환경변수를 enumerate 해 추가 접근 권한을 얻었다. 공격자는 ShinyHunters를 자처하며 직원 정보·API 키·NPM/GitHub 토큰 판매를 시도 중이다.

security

Wiz '클라우드 위협 2026' — AI가 바꾼 건 공격 종류가 아니라 확산 속도, 기본 취약점이 여전히 최대 위협

Wiz의 2026 클라우드 위협 보고서는 2025년 침해사고의 초기 진입 경로가 취약점 악용 40%, 노출된 시크릿 21%, 설정 오류 19%로 기본 취약점이 여전히 최대 위협임을 확인했다. 샤이 훌루드·s1ngularity·리액트투쉘 같은 공급망 공격과 AI 도구를 활용한 LameHug 악성코드 사례가 2025년을 특징짓는 사건으로 꼽힌다.

security

앤트로픽 '미토스', 27년 묵은 OpenBSD 버그까지 탐지… 위험성 때문에 후속 모델은 '성능 축소'

앤트로픽 AI 모델 미토스가 오픈BSD 27년 묵은 원격 취약점을 포함한 수천 건의 제로데이를 탐지하면서 AI 보안의 판도를 바꾸고 있다. 해킹 자동화 우려 때문에 앤트로픽은 후속 모델 오퍼스 4.7에서 의도적으로 사이버 보안 기능을 축소했고, 미국 정부도 도입을 재검토 중이다.