본문으로 건너뛰기
피드

실제 공격 트래픽 1억 건 공개 — 위트푸, 아파치 2.0 사이버보안 데이터셋 'Precinct 6' 오픈소스로 풀었다

security 약 8분
vote
0
댓글
북마크

위트푸가 2024년 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋 'Precinct 6'을 허깅페이스에 아파치 2.0으로 공개했다. 시스로그·윈도우 보안 감사·VPC 플로 로그·엔드포인트 원격측정 같은 다중 로그 소스와 출처 그래프, MITRE ATT&CK 매핑 인시던트가 하나로 묶여 있다. 캔터베리대학교와 공동 제작했고 정제 코드까지 오픈소스로 공개됐다.

  • 1

    실제 공격 트래픽 기반 1억 건 구조화·라벨링 데이터셋 — 기존 공개 데이터셋의 '합성/실험실' 한계를 보완

  • 2

    시그널(로그)·그래프 노드·그래프 에지·인시던트 4개 하위 데이터로 구성, 다중 로그 소스 통합 분석 가능

  • 3

    인시던트에 MITRE ATT&CK 기법·전술 매핑 + SOAR 수명주기 메타데이터까지 포함돼 표준 벤치마크 가능

  • 4

    아파치 2.0 라이선스로 학술·상업·정부 용도 무료 활용 가능, 정제 코드도 오픈소스로 검증 가능

  • 5

    국내 보안 업계의 AI 탐지·보안관제 자동화·SOAR 고도화 모델 검증에 동일 기준 벤치마크로 활용 가능

  • 보안 분석 기업 위트푸(WitFoo)가 실제 공격 트래픽에서 파생한 1억 건 규모의 구조화·라벨링 사이버보안 데이터셋을 오픈소스로 공개함
    • 이름은 프리싱트 6(Precinct 6) 사이버보안 데이터셋
    • 허깅페이스에서 아파치 2.0 라이선스로 제공, 정제 코드까지 깃허브에 공개
    • 2026년 초 공개된 200만 건 초기 데이터셋을 50배 확장한 버전
    • 뉴질랜드 캔터베리대학교와 공동 제작

왜 중요한가 — 실험실 데이터 vs 실제 공격

  • 보안 AI 연구의 고질적 문제 — 공개 데이터 대부분이 실험실 환경 or 시뮬레이션 트래픽 기반
    • 실제 운영망에서 나타나는 공격자의 횡적 이동(lateral movement), 시간적 관계, 이벤트 상관성을 반영 못 함
    • 침입 탐지 모델이 벤치마크에선 잘 되지만 실전에서 일반화가 안 되는 원인
  • 프리싱트 6은 2024년 7~8월 실제 공격 트래픽을 기반으로 구성됨
    • 참여 조직 보호를 위해 정제는 거쳤지만 공격 패턴·시간 관계·행동 특성은 연구 목적에 맞게 보존

4개 통합 하위 데이터셋으로 구성

  • 시그널(Signals) 1억 건 — 정규화된 로그 기록
    • 시스로그(Syslog), 윈도우 보안 감사(Windows Security Auditing), VPC 플로 로그, 엔드포인트 원격측정 포함
    • 네트워크 메타데이터, 호스트명, 사용자명, 심각도, 정제된 메시지 내용 탑재
  • 그래프 에지(Graph Edges) + 그래프 노드(Graph Nodes)
    • 호스트·사용자·프로세스·네트워크 연결 사이 관계를 나타내는 출처 그래프(provenance graph) 구조 제공
    • 그래프 신경망, 시간 그래프 분석, 횡적 이동 탐지 연구에 바로 활용 가능
  • 인시던트(Incidents) — 상관 분석된 보안 이벤트 모음
    • 이진 분류 라벨, 신뢰 점수, MITRE ATT&CK 기법·전술 매핑, 의심 점수
    • SOAR(보안 오케스트레이션·자동화·대응) 수명주기 메타데이터까지 포함

어디에 쓰이나

  • 침입 탐지 & 이상 행위 탐지 — 1억 건 라벨 이벤트로 지도/비지도 학습 벤치마킹
  • 그래프 기반 위협 탐지 — 출처 그래프로 APT(지능형 지속 위협) 탐지 연구
  • 보안 운영용 LLM 연구 — 정제된 메시지로 로그 자동 분류, 경보 요약, 자연어 질의 훈련/평가
  • 재현성 확보 — 동일 데이터셋 위에서 서로 다른 탐지 알고리즘·피처 엔지니어링·모델 아키텍처 비교 가능

중요

> 위트푸는 참여 조직 신원을 완전히 정제하면서도 통계적 속성·시간 관계·행동 패턴은 보존했다고 밝힘. 정제 코드베이스 전체를 오픈소스로 풀어서 연구자가 "어떻게 정제했는지"도 검증 가능

업계 인사이트

  • 찰스 헤링(WitFoo 공동창업자) — "10년간 포춘 500·대학·정부 기관과 4,000건 이상 실험하며 엠퍼세틱 프로세싱(Empathetic Processing) 파이프라인 개발. 이 데이터셋이 그 결과물"
    • "사이버보안의 가장 큰 병목은 컴퓨팅이나 알고리즘이 아니라 현실적 데이터 부족"이라고 강조
  • 에티엔 보르드(캔터베리대 부교수) — "사이버보안 데이터셋 대부분이 합성이거나 통제 실험 기반이라 일반화가 제한됨. 실제 공격 트래픽 대규모 데이터셋은 매우 드물고, 이번 공개로 그래프 기반 위협 모델링부터 AI 탐지 시스템 평가까지 이전엔 어려웠던 연구 경로가 열림"

한국 보안 업계 맥락

  • 국내에서도 AI 기반 탐지, 보안관제 자동화, 위협 인텔리전스, SOAR 고도화 수요가 커지는 중
    • 모델 개발/검증 단계에서 실제 공격 흐름을 담은 대규모 공개 데이터 부족이 재현성과 성능 비교의 걸림돌이었음
  • 프리싱트 6은 국내 연구기관·보안 기업·대학이 동일 기준으로 침입 탐지 모델을 비교할 수 있는 기반을 제공
    • 단일 로그 기반 데이터셋과 달리 다중 로그 소스 + 그래프 관계 + MITRE ATT&CK 매핑 + 인시던트 라벨이 함께 제공된다는 점이 차별화

기술 맥락

이 데이터셋이 연구자들을 흥분시키는 이유는 단순히 규모가 크기 때문이 아니에요. 기존 공개 보안 데이터셋(CICIDS, UNSW-NB15 등)은 트래픽 생성기로 만든 합성 데이터가 기본이었어요. 공격 페이로드는 실제에 가까워도 공격자의 "리듬"이 없었죠 — 실제 APT 공격은 며칠에 걸쳐 조금씩 권한을 넓혀가는데 합성 데이터는 그 시간 구조를 못 담거든요. 프리싱트 6이 2024년 7~8월 연속 관찰 트래픽을 그대로 쓴 게 그래서 의미가 커요.

그래프 데이터 제공이 특히 주목할 만해요. 최근 보안 AI 연구의 핫 토픽이 출처 그래프(provenance graph) 기반 탐지인데, 이건 "누가 어떤 파일을 어떤 프로세스로 열었는가" 같은 시스템 호출 관계를 그래프로 재구성해서 이상 행위를 잡는 방식이에요. 문제는 이런 그래프 데이터를 실제 기업 환경에서 얻기가 거의 불가능하다는 거였는데, 이번 공개로 GNN(Graph Neural Network) 기반 보안 모델 연구가 한 단계 가속될 수 있어요.

MITRE ATT&CK 매핑이 붙어있다는 점도 놓치면 안 돼요. 인시던트마다 "이건 TA0002 Execution의 T1059.003 Command and Scripting Interpreter 기법"처럼 전술·기법 라벨이 달려있거든요. 덕분에 연구자는 "이 모델이 어떤 공격 유형에서 강하고 어디서 약한지"를 표준 분류체계로 비교할 수 있어요. 기존엔 각 논문마다 평가 기준이 달라서 비교가 어려웠는데 이게 해소되는 거죠.

라이선스가 아파치 2.0이라는 점도 중요해요. 학술 연구뿐 아니라 상업·정부 용도로 무료 활용이 가능하거든요. 한국의 국가정보원 산하 KISIS 연구기관이나 민간 보안 기업이 내부 탐지 모델을 이 벤치마크로 검증해서 공개하면, 같은 기준으로 업계 표준이 형성되는 효과를 기대할 수 있어요.

이 데이터셋의 진짜 가치는 규모가 아니라 '시간 구조'를 살린 연속 관찰 공격 트래픽이라는 점이다. 합성 데이터로는 재현할 수 없는 APT 공격의 리듬이 담겨 있고, 특히 출처 그래프가 함께 제공돼 GNN 기반 위협 탐지 연구가 가속될 가능성이 크다.

댓글

댓글

댓글을 불러오는 중...

security

오픈소스 AI 모델로 자율형 AI 웜이 현실화될 수 있다는 연구 공개

토론토대, 벡터 연구소, 케임브리지대 연구진이 오픈웨이트 AI 모델만으로 자율형 AI 웜 프로토타입을 구현했다고 공개했음. 실험 환경에서 웜은 인간 개입 없이 취약점을 찾고, 공격 전략을 바꾸고, 침해한 GPU 자원을 이용해 네트워크로 확산했음.

security

IBM의 AI 개발 파트너 ‘밥’, 생산성 45% 올리고 보안까지 끼워 넣겠다는 얘기

IBM이 소프트웨어 배포 라이프사이클 파트너 ‘Bob’을 소개하면서 개발 생산성 45% 향상, 앱 현대화 최대 93% 개선을 내세웠어. 기사 전반은 AI 코딩 도구가 생산성을 올리는 동시에 공급망 공격과 보안 검증 부담을 키우는 현실을 짚고, Bob이 사람 승인과 시프트 레프트 보안으로 이 문제를 풀겠다는 내용이야.

security

한국형 AI 취약점 대응 허브 ‘K-글래스윙’ 추진

한국정보보호산업협회가 AI 기반 취약점 대응 체계인 K-글래스윙 출범을 추진한다. 해외 보안 특화 AI 프로젝트에만 기대기 어렵기 때문에, 국내 보안기업·AI 기업·공공기관이 함께 취약점 진단과 한국형 보안 AI 모델 개발을 맡는 구조다.

security

샘 올트먼·다리오 아모데이까지, ‘AI 생물학무기’ 막자고 미국 의회에 규제 촉구

오픈AI, 앤트로픽, 구글 딥마인드 등 주요 AI 기업 리더들이 미국 의회에 합성 핵산 판매 규제를 요구했다. AI가 바이러스학 같은 전문 영역의 지식 장벽을 낮추면서, 악의적 세력이 생물학무기 개발에 활용할 수 있다는 우려가 핵심임.

security

환자 의료기록 133GB가 공개 서버에 노출됐고, 병원은 답이 없었다

캘리포니아 백 앤 페인 스페셜리스트의 서버에서 환자 의료기록 133GB가 공개된 정황이 보고됐다. 제보자는 2026년 3월 31일 병원 측에 알렸지만 응답을 받지 못했고, 5월 20일 AWS에 신고한 뒤 6일 만에 서버가 조치됐다고 밝혔다. 이후 환자와 규제기관에 통지할 계획이 있는지 물었지만 답변은 없었다.