본문으로 건너뛰기
피드

마이크로소프트, 100개 넘는 AI 에이전트로 취약점 찾는 보안 시스템 공개

security 약 6분

마이크로소프트가 100개 이상의 AI 에이전트를 조율해 소프트웨어 취약점을 탐지하는 보안 시스템 MDASH를 공개했다. 공개 벤치마크 CyberGym에서 1,507개 취약점 재현 과제 중 88.4% 성공률을 기록했고, 윈도우 네트워킹·인증 스택에서 신규 취약점 16건도 찾아냈다.

  • 1

    MDASH는 단일 LLM이 아니라 100개 이상의 특화 AI 에이전트를 조율하는 구조

  • 2

    CyberGym 벤치마크에서 88.4% 성공률을 기록해 Claude Mythos 프리뷰와 GPT-5.5-Cyber보다 높은 수치를 제시

  • 3

    윈도우 네트워킹·인증 스택에서 신규 취약점 16건을 발견했고, 원격 코드 실행 가능 취약점도 포함

  • 마이크로소프트가 취약점 탐지용 보안 AI 시스템 MDASH를 공개함

    • 정식 명칭은 Multi-model Agentic Scanning Harness임
    • 현재는 제한된 고객을 대상으로 비공개 프리뷰 형태로 운영 중임
    • 개발은 KAIST 출신 김태수 마이크로소프트 에이전트 보안 부사장이 주도함
  • MDASH의 핵심은 단일 대규모 언어 모델(LLM)에 맡기는 방식이 아니라, 100개 이상의 특화 AI 에이전트를 조율한다는 점임

    • 서로 다른 최신 AI 모델과 경량 증류 모델을 함께 사용함
    • 각 에이전트가 취약점 후보를 찾고, 다른 에이전트가 그 결과를 검증하거나 반박하는 구조를 씀
    • MS는 이 방식을 토론형(debate) 접근이라고 설명함

중요

> 공개 벤치마크 CyberGym 기준으로 MDASH는 취약점 재현 과제 1,507개 중 88.4% 성공률을 기록함. 기사에 나온 비교 수치로는 Claude Mythos 프리뷰 83.1%, GPT-5.5-Cyber 81.8%보다 높음.

  • 벤치마크 수치만이 아니라 실제 윈도우 코드에서도 결과를 냈다고 밝힘
    • MS는 MDASH를 활용해 윈도우 네트워킹·인증 스택 전반에서 신규 취약점 16건을 발견했다고 함
    • 이 중에는 원격 코드 실행(RCE)이 가능한 Critical 등급 취약점도 포함됨
    • 보안팀 입장에서는 ‘취약해 보인다’ 수준이 아니라 재현 가능한 버그를 얼마나 찾느냐가 핵심인데, MS는 이 부분을 전면에 내세운 셈임
sequenceDiagram
    participant 보안팀
    participant 조율시스템
    participant 분석에이전트
    participant 검증에이전트
    participant 코드베이스
    보안팀->>조율시스템: 스캔 대상 지정
    조율시스템->>분석에이전트: 취약점 후보 탐색 요청
    분석에이전트->>코드베이스: 네트워킹·인증 스택 분석
    분석에이전트->>조율시스템: 후보와 근거 제출
    조율시스템->>검증에이전트: 재현·반박 요청
    검증에이전트->>코드베이스: 취약점 재현 시도
    검증에이전트->>조율시스템: 검증 결과 반환
    조율시스템->>보안팀: 확인된 취약점 보고
  • 이 흐름은 보안 자동화가 ‘AI가 코드 리뷰해줌’ 정도에서 한 단계 더 넘어가고 있다는 신호임

    • 취약점 탐지는 후보 생성보다 검증이 훨씬 중요함
    • 여러 에이전트가 서로 반박하게 만든 건 오탐을 줄이고 재현 가능성을 높이려는 설계로 볼 수 있음
    • 특히 100개 이상 에이전트라는 숫자는 보안 업무를 작은 전문 작업 단위로 쪼개려는 방향을 보여줌
  • 한국 개발자에게도 꽤 직접적인 이슈임

    • 대규모 코드베이스를 가진 조직이라면 SAST, 퍼징, 수동 보안 리뷰에 AI 에이전트 기반 분석이 붙는 흐름을 피하기 어려움
    • 다만 실제 도입에서는 벤치마크 성공률보다 사내 코드에서의 오탐률, 재현 로그, 패치 우선순위 산정이 더 중요해질 가능성이 큼

기술 맥락

  • MDASH가 단일 LLM 대신 여러 AI 에이전트를 쓴 이유는 보안 분석이 한 번에 답을 맞히는 문제가 아니기 때문이에요. 취약점 후보를 찾는 일, 그 후보가 진짜인지 재현하는 일, 영향도를 판단하는 일이 서로 다른 능력을 요구하거든요.

  • 토론형 구조도 같은 맥락이에요. 한 에이전트가 낸 결론을 다른 에이전트가 반박하거나 검증하게 만들면, 모델이 그럴듯한 설명만 만들고 끝나는 위험을 줄일 수 있어요. 보안에서는 그럴듯함보다 재현 가능성이 훨씬 중요해요.

  • MS가 CyberGym 수치와 윈도우 취약점 16건을 같이 제시한 것도 포인트예요. 벤치마크 88.4%만 있으면 실험실 성능처럼 보일 수 있는데, 실제 윈도우 네트워킹·인증 스택에서 신규 취약점을 찾았다는 사례가 붙으면서 실무 적용 가능성을 강조한 거예요.

  • 개발 조직 입장에서는 이런 시스템이 기존 SAST나 퍼징을 바로 대체한다기보다, 취약점 후보 생성과 재현 자동화를 보강하는 레이어로 들어올 가능성이 커요. 그래서 앞으로는 AI가 만든 보안 리포트를 사람이 어떻게 검증하고 패치 흐름에 연결할지가 더 중요한 운영 문제가 될 거예요.

보안 AI가 ‘코드 읽는 챗봇’에서 여러 에이전트가 가설을 만들고 반박하며 검증하는 자동화 시스템으로 넘어가는 분위기다. 수치만 보면 인상적이지만, 실제 고객 환경에서 오탐·재현성·책임 소재를 어떻게 다룰지가 진짜 승부처다.

댓글

댓글

댓글을 불러오는 중...

security

메가존클라우드 HALO, “이제는 사람이 아닌 계정을 검증해야 할 때”

메가존클라우드의 보안 브랜드 HALO가 에이전틱 AI 시대의 보안 전략을 공개했다. 핵심은 해커의 AI가 사람 지시 없이 취약점을 찾고 우회하는 속도에 맞서, 방어도 AI가 탐지부터 조치까지 자동으로 수행해야 한다는 주장이다.

security

SAP, 엔비디아 오픈셸로 ERP 안 AI 에이전트 보안 강화

SAP가 엔비디아의 오픈소스 런타임 오픈셸을 SAP 비즈니스 AI 플랫폼에 내장한다. ERP처럼 민감한 기업 핵심 시스템 안에서 AI 에이전트가 움직이려면 격리, 접근 제어, 실행 추적 같은 보안·거버넌스 장치가 필수라는 판단이다.

security

샤이훌루드 공급망 공격 재확산, 서명된 패키지도 더는 안심 못 함

샤이훌루드 공급망 공격이 npm과 PyPI를 다시 덮치면서 TanStack, Mistral AI, UiPath, OpenSearch 등 개발자들이 많이 쓰는 생태계가 영향을 받았다. 공격자는 GitHub Actions와 OIDC 기반 배포 흐름을 악용해 정상 출처 증명처럼 보이는 악성 패키지를 올렸고, 설치 환경에서 토큰과 키를 훔쳐 감염을 확장했다.

security

윈도우 11 BitLocker 우회 취약점 ‘YellowKey’ 공개, WinRE 경로가 문제로 지목됨

YellowKey라는 BitLocker 우회 취약점 공개 글이 올라왔고, 작성자는 Windows Recovery Environment에만 있는 특정 구성요소가 보호된 볼륨 접근을 허용한다고 주장한다. 공개 내용은 Windows 11과 Windows Server 2022/2025가 영향권이고 Windows 10은 제외된다고 설명하며, Microsoft 보안 조직과의 공개 조율도 언급한다.

security

해고 직후 정부 DB 96개 삭제 혐의, 내부자 접근권 회수의 무서운 사례

미국 정부 고객을 상대하던 IT 업체에서 해고된 쌍둥이 형제가 몇 분 뒤 정부 정보가 담긴 데이터베이스 96개를 삭제한 혐의를 받고 있다. 기사에는 이들이 이전에도 컴퓨터 범죄 전력이 있었고, 회사 네트워크에서 5,400개 계정 정보를 모아 Python 스크립트로 외부 서비스 로그인을 시도했다는 정황도 나온다.