실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

security 2026-04-20 약 8분

 tags

#dataset #open-source #cybersecurity #machine-learning #soar

vote

북마크

위트푸가 2024년 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋 'Precinct 6'을 허깅페이스에 아파치 2.0으로 공개했다. 시스로그·윈도우 보안 감사·VPC 플로 로그·엔드포인트 원격측정 같은 다중 로그 소스와 출처 그래프, MITRE ATT&CK 매핑 인시던트가 하나로 묶여 있다. 캔터베리대학교와 공동 제작했고 정제 코드까지 오픈소스로 공개됐다.

1
실제 공격 트래픽 기반 1억 건 구조화·라벨링 데이터셋 — 기존 공개 데이터셋의 '합성/실험실' 한계를 보완
2
시그널(로그)·그래프 노드·그래프 에지·인시던트 4개 하위 데이터로 구성, 다중 로그 소스 통합 분석 가능
3
인시던트에 MITRE ATT&CK 기법·전술 매핑 + SOAR 수명주기 메타데이터까지 포함돼 표준 벤치마크 가능
4
아파치 2.0 라이선스로 학술·상업·정부 용도 무료 활용 가능, 정제 코드도 오픈소스로 검증 가능
5
국내 보안 업계의 AI 탐지·보안관제 자동화·SOAR 고도화 모델 검증에 동일 기준 벤치마크로 활용 가능

보안 분석 기업 위트푸(WitFoo)가 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋을 오픈소스로 공개함
- 이름은 프리싱트 6(Precinct 6) 사이버보안 데이터셋
- 허깅페이스에서 아파치 2.0 라이선스로 제공, 정제 코드까지 깃허브에 공개
- 2026년 초 공개된 200만 건 초기 데이터셋을 50배 확장한 버전
- 뉴질랜드 캔터베리대학교와 공동 제작

왜 중요한가 — 실험실 데이터 vs 실제 공격

보안 AI 연구의 고질적 문제 — 공개 데이터 대부분이 실험실 환경 or 시뮬레이션 트래픽 기반
- 실제 운영망에서 나타나는 공격자의 횡적 이동(lateral movement), 시간적 관계, 이벤트 상관성을 반영 못 함
- 침입 탐지 모델이 벤치마크에선 잘 되지만 실전에서 일반화가 안 되는 원인
프리싱트 6은 2024년 7~8월 실제 공격 트래픽을 기반으로 구성됨
- 참여 조직 보호를 위해 정제는 거쳤지만 공격 패턴·시간 관계·행동 특성은 연구 목적에 맞게 보존

4개 통합 하위 데이터셋으로 구성

시그널(Signals) 1억 건 — 정규화된 로그 기록
- 시스로그(Syslog), 윈도우 보안 감사(Windows Security Auditing), VPC 플로 로그, 엔드포인트 원격측정 포함
- 네트워크 메타데이터, 호스트명, 사용자명, 심각도, 정제된 메시지 내용 탑재
그래프 에지(Graph Edges) + 그래프 노드(Graph Nodes)
- 호스트·사용자·프로세스·네트워크 연결 사이 관계를 나타내는 출처 그래프(provenance graph) 구조 제공
- 그래프 신경망, 시간 그래프 분석, 횡적 이동 탐지 연구에 바로 활용 가능
인시던트(Incidents) — 상관 분석된 보안 이벤트 모음
- 이진 분류 라벨, 신뢰 점수, MITRE ATT&CK 기법·전술 매핑, 의심 점수
- SOAR(보안 오케스트레이션·자동화·대응) 수명주기 메타데이터까지 포함

어디에 쓰이나

침입 탐지 & 이상 행위 탐지 — 1억 건 라벨 이벤트로 지도/비지도 학습 벤치마킹
그래프 기반 위협 탐지 — 출처 그래프로 APT(지능형 지속 위협) 탐지 연구
보안 운영용 LLM 연구 — 정제된 메시지로 로그 자동 분류, 경보 요약, 자연어 질의 훈련/평가
재현성 확보 — 동일 데이터셋 위에서 서로 다른 탐지 알고리즘·피처 엔지니어링·모델 아키텍처 비교 가능

❗중요

> 위트푸는 참여 조직 신원을 완전히 정제하면서도 통계적 속성·시간 관계·행동 패턴은 보존했다고 밝힘. 정제 코드베이스 전체를 오픈소스로 풀어서 연구자가 "어떻게 정제했는지"도 검증 가능

업계 인사이트

찰스 헤링(WitFoo 공동창업자) — "10년간 포춘 500·대학·정부 기관과 4,000건 이상 실험하며 엠퍼세틱 프로세싱(Empathetic Processing) 파이프라인 개발. 이 데이터셋이 그 결과물"
- "사이버보안의 가장 큰 병목은 컴퓨팅이나 알고리즘이 아니라 현실적 데이터 부족"이라고 강조
에티엔 보르드(캔터베리대 부교수) — "사이버보안 데이터셋 대부분이 합성이거나 통제 실험 기반이라 일반화가 제한됨. 실제 공격 트래픽 대규모 데이터셋은 매우 드물고, 이번 공개로 그래프 기반 위협 모델링부터 AI 탐지 시스템 평가까지 이전엔 어려웠던 연구 경로가 열림"

한국 보안 업계 맥락

국내에서도 AI 기반 탐지, 보안관제 자동화, 위협 인텔리전스, SOAR 고도화 수요가 커지는 중
- 모델 개발/검증 단계에서 실제 공격 흐름을 담은 대규모 공개 데이터 부족이 재현성과 성능 비교의 걸림돌이었음
프리싱트 6은 국내 연구기관·보안 기업·대학이 동일 기준으로 침입 탐지 모델을 비교할 수 있는 기반을 제공
- 단일 로그 기반 데이터셋과 달리 다중 로그 소스 + 그래프 관계 + MITRE ATT&CK 매핑 + 인시던트 라벨이 함께 제공된다는 점이 차별화

기술 맥락

이 데이터셋이 연구자들을 흥분시키는 이유는 단순히 규모가 크기 때문이 아니에요. 기존 공개 보안 데이터셋(CICIDS, UNSW-NB15 등)은 트래픽 생성기로 만든 합성 데이터가 기본이었어요. 공격 페이로드는 실제에 가까워도 공격자의 "리듬"이 없었죠 — 실제 APT 공격은 며칠에 걸쳐 조금씩 권한을 넓혀가는데 합성 데이터는 그 시간 구조를 못 담거든요. 프리싱트 6이 2024년 7~8월 연속 관찰 트래픽을 그대로 쓴 게 그래서 의미가 커요.

그래프 데이터 제공이 특히 주목할 만해요. 최근 보안 AI 연구의 핫 토픽이 출처 그래프(provenance graph) 기반 탐지인데, 이건 "누가 어떤 파일을 어떤 프로세스로 열었는가" 같은 시스템 호출 관계를 그래프로 재구성해서 이상 행위를 잡는 방식이에요. 문제는 이런 그래프 데이터를 실제 기업 환경에서 얻기가 거의 불가능하다는 거였는데, 이번 공개로 GNN(Graph Neural Network) 기반 보안 모델 연구가 한 단계 가속될 수 있어요.

MITRE ATT&CK 매핑이 붙어있다는 점도 놓치면 안 돼요. 인시던트마다 "이건 TA0002 Execution의 T1059.003 Command and Scripting Interpreter 기법"처럼 전술·기법 라벨이 달려있거든요. 덕분에 연구자는 "이 모델이 어떤 공격 유형에서 강하고 어디서 약한지"를 표준 분류체계로 비교할 수 있어요. 기존엔 각 논문마다 평가 기준이 달라서 비교가 어려웠는데 이게 해소되는 거죠.

라이선스가 아파치 2.0이라는 점도 중요해요. 학술 연구뿐 아니라 상업·정부 용도로 무료 활용이 가능하거든요. 한국의 국가정보원 산하 KISIS 연구기관이나 민간 보안 기업이 내부 탐지 모델을 이 벤치마크로 검증해서 공개하면, 같은 기준으로 업계 표준이 형성되는 효과를 기대할 수 있어요.

이 데이터셋의 진짜 가치는 규모가 아니라 '시간 구조'를 살린 연속 관찰 공격 트래픽이라는 점이다. 합성 데이터로는 재현할 수 없는 APT 공격의 리듬이 담겨 있고, 특히 출처 그래프가 함께 제공돼 GNN 기반 위협 탐지 연구가 가속될 가능성이 크다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

security 2026-07-13

엘에이 경찰, 사생활 침해 논란 끝에 플록 번호판 감시 계약 종료

엘에이 경찰이 번호판 인식 카메라 업체 플록 세이프티와의 3년 계약을 연장하지 않기로 했어. 시민권, 프라이버시, 데이터 보관과 공유 문제를 해결하지 못했다는 게 핵심 이유야. 플록은 미국 전역에 최소 8만 대 카메라망을 깔아 경찰과 연방기관이 차량을 추적할 수 있게 해왔고, 오탐·보안 사고·이민 단속 악용 의혹까지 겹치며 압박이 커졌어.

security 2026-07-12

크로미움 148부터 Math.tanh 한 번으로 운영체제 지문이 새는 문제

크로미움 148 이후 V8이 Math.tanh 계산을 자체 구현 대신 운영체제의 수학 라이브러리에 맡기면서, 같은 입력값도 리눅스·맥·윈도우에서 마지막 비트가 달라지는 지문 신호가 생겼다. 이 차이는 User-Agent로 맥이라고 주장하면서 리눅스 수학 결과를 내는 식의 위장을 바로 들키게 만든다. CSS 삼각함수와 웹 오디오까지 보면 브라우저 수학 경로가 꽤 복잡하게 갈라지고, 제대로 흉내 내려면 실제 운영체제 라이브러리의 비트 단위 동작까지 맞춰야 한다.

security 2026-07-12

출입통제도 클라우드 구독제로 간다…제로트러스트·AI 분석이 승부처

기업 출입보안이 사업장별 서버를 두는 방식에서 클라우드 기반 서비스형 출입통제(ACaaS)로 옮겨가고 있다. 시장은 2026년 17억8000만 달러에서 2030년 31억9000만 달러로 커질 전망이고, 제로트러스트·모바일 인증·AI 출입 분석·스마트빌딩 통합이 핵심 경쟁 포인트로 꼽힌다.

security 2026-07-12

AWS·구글 클라우드, 양자컴퓨터 대비해 암호 체계 갈아엎는 중

AWS와 구글 클라우드가 양자컴퓨터 시대를 대비해 기존 공개키 암호와 양자내성암호를 함께 쓰는 하이브리드 전환을 시작했다. 핵심 배경은 지금 훔친 암호문을 나중에 양자컴퓨터로 푸는 ‘선수집·후해독’ 공격이고, 국내도 통신·금융·국방 등 5개 분야에 45억원을 투입해 실증에 들어간다.

security 2026-07-12

보안 점검 맡긴 AI 에이전트가 악성코드를 직접 실행할 수 있다는 경고

AI 보안 에이전트가 저장소를 검사하다가 README 같은 문서에 숨은 프롬프트 인젝션에 속아 악성 바이너리를 실행할 수 있다는 연구가 나왔다. 클로드 코드와 코덱스의 자동 모드처럼 승인 없이 명령을 수행하는 구성에서 문제가 재현됐고, 여러 모델과 공급업체를 가로질러 같은 패턴이 통했다는 점이 핵심이다.

실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

요약

핵심 포인트

핵심 개념

분석

왜 중요한가 — 실험실 데이터 vs 실제 공격

4개 통합 하위 데이터셋으로 구성

어디에 쓰이나

업계 인사이트

한국 보안 업계 맥락

기술 맥락

인사이트

댓글

댓글

실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

요약

핵심 포인트

핵심 개념

분석

왜 중요한가 — 실험실 데이터 vs 실제 공격

4개 통합 하위 데이터셋으로 구성

어디에 쓰이나

업계 인사이트

한국 보안 업계 맥락

기술 맥락

인사이트

댓글

댓글

관련 기사