---
title: "실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다"
published: 2026-04-20T16:05:03.169Z
canonical: https://jeff.news/article/1840
---
# 실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

위트푸가 2024년 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋 'Precinct 6'을 허깅페이스에 아파치 2.0으로 공개했다. 시스로그·윈도우 보안 감사·VPC 플로 로그·엔드포인트 원격측정 같은 다중 로그 소스와 출처 그래프, MITRE ATT&CK 매핑 인시던트가 하나로 묶여 있다. 캔터베리대학교와 공동 제작했고 정제 코드까지 오픈소스로 공개됐다.

- 보안 분석 기업 **위트푸(WitFoo)**가 실제 공격 트래픽에서 파생한 **1억 건 규모의 구조화·라벨링 사이버보안 데이터셋**을 오픈소스로 공개함
  - 이름은 **프리싱트 6(Precinct 6) 사이버보안 데이터셋**
  - 허깅페이스에서 **아파치 2.0 라이선스**로 제공, 정제 코드까지 깃허브에 공개
  - 2026년 초 공개된 200만 건 초기 데이터셋을 **50배 확장**한 버전
  - 뉴질랜드 캔터베리대학교와 공동 제작

### 왜 중요한가 — 실험실 데이터 vs 실제 공격
- 보안 AI 연구의 고질적 문제 — 공개 데이터 대부분이 **실험실 환경 or 시뮬레이션 트래픽** 기반
  - 실제 운영망에서 나타나는 공격자의 **횡적 이동(lateral movement), 시간적 관계, 이벤트 상관성**을 반영 못 함
  - 침입 탐지 모델이 벤치마크에선 잘 되지만 실전에서 일반화가 안 되는 원인
- 프리싱트 6은 **2024년 7~8월 실제 공격 트래픽**을 기반으로 구성됨
  - 참여 조직 보호를 위해 정제는 거쳤지만 공격 패턴·시간 관계·행동 특성은 연구 목적에 맞게 보존

### 4개 통합 하위 데이터셋으로 구성
- **시그널(Signals) 1억 건** — 정규화된 로그 기록
  - 시스로그(Syslog), 윈도우 보안 감사(Windows Security Auditing), VPC 플로 로그, 엔드포인트 원격측정 포함
  - 네트워크 메타데이터, 호스트명, 사용자명, 심각도, 정제된 메시지 내용 탑재
- **그래프 에지(Graph Edges) + 그래프 노드(Graph Nodes)**
  - 호스트·사용자·프로세스·네트워크 연결 사이 관계를 나타내는 **출처 그래프(provenance graph)** 구조 제공
  - 그래프 신경망, 시간 그래프 분석, 횡적 이동 탐지 연구에 바로 활용 가능
- **인시던트(Incidents)** — 상관 분석된 보안 이벤트 모음
  - 이진 분류 라벨, 신뢰 점수, **MITRE ATT&CK 기법·전술 매핑**, 의심 점수
  - SOAR(보안 오케스트레이션·자동화·대응) 수명주기 메타데이터까지 포함

### 어디에 쓰이나
- **침입 탐지 & 이상 행위 탐지** — 1억 건 라벨 이벤트로 지도/비지도 학습 벤치마킹
- **그래프 기반 위협 탐지** — 출처 그래프로 APT(지능형 지속 위협) 탐지 연구
- **보안 운영용 LLM 연구** — 정제된 메시지로 로그 자동 분류, 경보 요약, 자연어 질의 훈련/평가
- **재현성 확보** — 동일 데이터셋 위에서 서로 다른 탐지 알고리즘·피처 엔지니어링·모델 아키텍처 비교 가능

> [!IMPORTANT]
> 위트푸는 참여 조직 신원을 완전히 정제하면서도 **통계적 속성·시간 관계·행동 패턴은 보존**했다고 밝힘. 정제 코드베이스 전체를 오픈소스로 풀어서 연구자가 "어떻게 정제했는지"도 검증 가능

### 업계 인사이트
- 찰스 헤링(WitFoo 공동창업자) — "10년간 포춘 500·대학·정부 기관과 **4,000건 이상 실험**하며 엠퍼세틱 프로세싱(Empathetic Processing) 파이프라인 개발. 이 데이터셋이 그 결과물"
  - "사이버보안의 가장 큰 병목은 **컴퓨팅이나 알고리즘이 아니라 현실적 데이터 부족**"이라고 강조
- 에티엔 보르드(캔터베리대 부교수) — "사이버보안 데이터셋 대부분이 합성이거나 통제 실험 기반이라 일반화가 제한됨. 실제 공격 트래픽 대규모 데이터셋은 매우 드물고, 이번 공개로 **그래프 기반 위협 모델링부터 AI 탐지 시스템 평가까지** 이전엔 어려웠던 연구 경로가 열림"

### 한국 보안 업계 맥락
- 국내에서도 AI 기반 탐지, 보안관제 자동화, 위협 인텔리전스, SOAR 고도화 수요가 커지는 중
  - 모델 개발/검증 단계에서 **실제 공격 흐름을 담은 대규모 공개 데이터 부족**이 재현성과 성능 비교의 걸림돌이었음
- 프리싱트 6은 국내 연구기관·보안 기업·대학이 **동일 기준**으로 침입 탐지 모델을 비교할 수 있는 기반을 제공
  - 단일 로그 기반 데이터셋과 달리 다중 로그 소스 + 그래프 관계 + MITRE ATT&CK 매핑 + 인시던트 라벨이 함께 제공된다는 점이 차별화

---

## 기술 맥락

이 데이터셋이 연구자들을 흥분시키는 이유는 단순히 규모가 크기 때문이 아니에요. 기존 공개 보안 데이터셋(CICIDS, UNSW-NB15 등)은 **트래픽 생성기로 만든 합성 데이터**가 기본이었어요. 공격 페이로드는 실제에 가까워도 공격자의 "리듬"이 없었죠 — 실제 APT 공격은 며칠에 걸쳐 조금씩 권한을 넓혀가는데 합성 데이터는 그 시간 구조를 못 담거든요. 프리싱트 6이 2024년 7~8월 연속 관찰 트래픽을 그대로 쓴 게 그래서 의미가 커요.

그래프 데이터 제공이 특히 주목할 만해요. 최근 보안 AI 연구의 핫 토픽이 **출처 그래프(provenance graph) 기반 탐지**인데, 이건 "누가 어떤 파일을 어떤 프로세스로 열었는가" 같은 시스템 호출 관계를 그래프로 재구성해서 이상 행위를 잡는 방식이에요. 문제는 이런 그래프 데이터를 실제 기업 환경에서 얻기가 거의 불가능하다는 거였는데, 이번 공개로 GNN(Graph Neural Network) 기반 보안 모델 연구가 한 단계 가속될 수 있어요.

MITRE ATT&CK 매핑이 붙어있다는 점도 놓치면 안 돼요. 인시던트마다 "이건 TA0002 Execution의 T1059.003 Command and Scripting Interpreter 기법"처럼 전술·기법 라벨이 달려있거든요. 덕분에 연구자는 "이 모델이 어떤 공격 유형에서 강하고 어디서 약한지"를 표준 분류체계로 비교할 수 있어요. 기존엔 각 논문마다 평가 기준이 달라서 비교가 어려웠는데 이게 해소되는 거죠.

라이선스가 아파치 2.0이라는 점도 중요해요. 학술 연구뿐 아니라 **상업·정부 용도로 무료 활용**이 가능하거든요. 한국의 국가정보원 산하 KISIS 연구기관이나 민간 보안 기업이 내부 탐지 모델을 이 벤치마크로 검증해서 공개하면, 같은 기준으로 업계 표준이 형성되는 효과를 기대할 수 있어요.

## 핵심 포인트

- 실제 공격 트래픽 기반 1억 건 구조화·라벨링 데이터셋 — 기존 공개 데이터셋의 '합성/실험실' 한계를 보완
- 시그널(로그)·그래프 노드·그래프 에지·인시던트 4개 하위 데이터로 구성, 다중 로그 소스 통합 분석 가능
- 인시던트에 MITRE ATT&CK 기법·전술 매핑 + SOAR 수명주기 메타데이터까지 포함돼 표준 벤치마크 가능
- 아파치 2.0 라이선스로 학술·상업·정부 용도 무료 활용 가능, 정제 코드도 오픈소스로 검증 가능
- 국내 보안 업계의 AI 탐지·보안관제 자동화·SOAR 고도화 모델 검증에 동일 기준 벤치마크로 활용 가능

## 인사이트

이 데이터셋의 진짜 가치는 규모가 아니라 '시간 구조'를 살린 연속 관찰 공격 트래픽이라는 점이다. 합성 데이터로는 재현할 수 없는 APT 공격의 리듬이 담겨 있고, 특히 출처 그래프가 함께 제공돼 GNN 기반 위협 탐지 연구가 가속될 가능성이 크다.
