---
title: "마이크로소프트, 100개 넘는 AI 에이전트로 취약점 찾는 보안 시스템 공개"
published: 2026-05-14T08:05:03.101Z
canonical: https://jeff.news/article/2649
---
# 마이크로소프트, 100개 넘는 AI 에이전트로 취약점 찾는 보안 시스템 공개

마이크로소프트가 100개 이상의 AI 에이전트를 조율해 소프트웨어 취약점을 탐지하는 보안 시스템 MDASH를 공개했다. 공개 벤치마크 CyberGym에서 1,507개 취약점 재현 과제 중 88.4% 성공률을 기록했고, 윈도우 네트워킹·인증 스택에서 신규 취약점 16건도 찾아냈다.

- 마이크로소프트가 취약점 탐지용 보안 AI 시스템 MDASH를 공개함
  - 정식 명칭은 Multi-model Agentic Scanning Harness임
  - 현재는 제한된 고객을 대상으로 비공개 프리뷰 형태로 운영 중임
  - 개발은 KAIST 출신 김태수 마이크로소프트 에이전트 보안 부사장이 주도함

- MDASH의 핵심은 단일 대규모 언어 모델(LLM)에 맡기는 방식이 아니라, 100개 이상의 특화 AI 에이전트를 조율한다는 점임
  - 서로 다른 최신 AI 모델과 경량 증류 모델을 함께 사용함
  - 각 에이전트가 취약점 후보를 찾고, 다른 에이전트가 그 결과를 검증하거나 반박하는 구조를 씀
  - MS는 이 방식을 토론형(debate) 접근이라고 설명함

> [!IMPORTANT]
> 공개 벤치마크 CyberGym 기준으로 MDASH는 취약점 재현 과제 1,507개 중 88.4% 성공률을 기록함. 기사에 나온 비교 수치로는 Claude Mythos 프리뷰 83.1%, GPT-5.5-Cyber 81.8%보다 높음.

- 벤치마크 수치만이 아니라 실제 윈도우 코드에서도 결과를 냈다고 밝힘
  - MS는 MDASH를 활용해 윈도우 네트워킹·인증 스택 전반에서 신규 취약점 16건을 발견했다고 함
  - 이 중에는 원격 코드 실행(RCE)이 가능한 Critical 등급 취약점도 포함됨
  - 보안팀 입장에서는 ‘취약해 보인다’ 수준이 아니라 재현 가능한 버그를 얼마나 찾느냐가 핵심인데, MS는 이 부분을 전면에 내세운 셈임

```mermaid
sequenceDiagram
    participant 보안팀
    participant 조율시스템
    participant 분석에이전트
    participant 검증에이전트
    participant 코드베이스
    보안팀->>조율시스템: 스캔 대상 지정
    조율시스템->>분석에이전트: 취약점 후보 탐색 요청
    분석에이전트->>코드베이스: 네트워킹·인증 스택 분석
    분석에이전트->>조율시스템: 후보와 근거 제출
    조율시스템->>검증에이전트: 재현·반박 요청
    검증에이전트->>코드베이스: 취약점 재현 시도
    검증에이전트->>조율시스템: 검증 결과 반환
    조율시스템->>보안팀: 확인된 취약점 보고
```

- 이 흐름은 보안 자동화가 ‘AI가 코드 리뷰해줌’ 정도에서 한 단계 더 넘어가고 있다는 신호임
  - 취약점 탐지는 후보 생성보다 검증이 훨씬 중요함
  - 여러 에이전트가 서로 반박하게 만든 건 오탐을 줄이고 재현 가능성을 높이려는 설계로 볼 수 있음
  - 특히 100개 이상 에이전트라는 숫자는 보안 업무를 작은 전문 작업 단위로 쪼개려는 방향을 보여줌

- 한국 개발자에게도 꽤 직접적인 이슈임
  - 대규모 코드베이스를 가진 조직이라면 SAST, 퍼징, 수동 보안 리뷰에 AI 에이전트 기반 분석이 붙는 흐름을 피하기 어려움
  - 다만 실제 도입에서는 벤치마크 성공률보다 사내 코드에서의 오탐률, 재현 로그, 패치 우선순위 산정이 더 중요해질 가능성이 큼

---

## 기술 맥락

- MDASH가 단일 LLM 대신 여러 AI 에이전트를 쓴 이유는 보안 분석이 한 번에 답을 맞히는 문제가 아니기 때문이에요. 취약점 후보를 찾는 일, 그 후보가 진짜인지 재현하는 일, 영향도를 판단하는 일이 서로 다른 능력을 요구하거든요.

- 토론형 구조도 같은 맥락이에요. 한 에이전트가 낸 결론을 다른 에이전트가 반박하거나 검증하게 만들면, 모델이 그럴듯한 설명만 만들고 끝나는 위험을 줄일 수 있어요. 보안에서는 그럴듯함보다 재현 가능성이 훨씬 중요해요.

- MS가 CyberGym 수치와 윈도우 취약점 16건을 같이 제시한 것도 포인트예요. 벤치마크 88.4%만 있으면 실험실 성능처럼 보일 수 있는데, 실제 윈도우 네트워킹·인증 스택에서 신규 취약점을 찾았다는 사례가 붙으면서 실무 적용 가능성을 강조한 거예요.

- 개발 조직 입장에서는 이런 시스템이 기존 SAST나 퍼징을 바로 대체한다기보다, 취약점 후보 생성과 재현 자동화를 보강하는 레이어로 들어올 가능성이 커요. 그래서 앞으로는 AI가 만든 보안 리포트를 사람이 어떻게 검증하고 패치 흐름에 연결할지가 더 중요한 운영 문제가 될 거예요.

## 핵심 포인트

- MDASH는 단일 LLM이 아니라 100개 이상의 특화 AI 에이전트를 조율하는 구조
- CyberGym 벤치마크에서 88.4% 성공률을 기록해 Claude Mythos 프리뷰와 GPT-5.5-Cyber보다 높은 수치를 제시
- 윈도우 네트워킹·인증 스택에서 신규 취약점 16건을 발견했고, 원격 코드 실행 가능 취약점도 포함

## 인사이트

보안 AI가 ‘코드 읽는 챗봇’에서 여러 에이전트가 가설을 만들고 반박하며 검증하는 자동화 시스템으로 넘어가는 분위기다. 수치만 보면 인상적이지만, 실제 고객 환경에서 오탐·재현성·책임 소재를 어떻게 다룰지가 진짜 승부처다.