본문으로 건너뛰기
피드

마이크로소프트, 100개 넘는 AI 에이전트로 취약점 찾는 보안 시스템 공개

security 약 6분
vote
0
댓글
북마크

마이크로소프트가 100개 이상의 AI 에이전트를 조율해 소프트웨어 취약점을 탐지하는 보안 시스템 MDASH를 공개했다. 공개 벤치마크 CyberGym에서 1,507개 취약점 재현 과제 중 88.4% 성공률을 기록했고, 윈도우 네트워킹·인증 스택에서 신규 취약점 16건도 찾아냈다.

  • 1

    MDASH는 단일 LLM이 아니라 100개 이상의 특화 AI 에이전트를 조율하는 구조

  • 2

    CyberGym 벤치마크에서 88.4% 성공률을 기록해 Claude Mythos 프리뷰와 GPT-5.5-Cyber보다 높은 수치를 제시

  • 3

    윈도우 네트워킹·인증 스택에서 신규 취약점 16건을 발견했고, 원격 코드 실행 가능 취약점도 포함

  • 마이크로소프트가 취약점 탐지용 보안 AI 시스템 MDASH를 공개함

    • 정식 명칭은 Multi-model Agentic Scanning Harness임
    • 현재는 제한된 고객을 대상으로 비공개 프리뷰 형태로 운영 중임
    • 개발은 KAIST 출신 김태수 마이크로소프트 에이전트 보안 부사장이 주도함
  • MDASH의 핵심은 단일 대규모 언어 모델(LLM)에 맡기는 방식이 아니라, 100개 이상의 특화 AI 에이전트를 조율한다는 점임

    • 서로 다른 최신 AI 모델과 경량 증류 모델을 함께 사용함
    • 각 에이전트가 취약점 후보를 찾고, 다른 에이전트가 그 결과를 검증하거나 반박하는 구조를 씀
    • MS는 이 방식을 토론형(debate) 접근이라고 설명함

중요

> 공개 벤치마크 CyberGym 기준으로 MDASH는 취약점 재현 과제 1,507개 중 88.4% 성공률을 기록함. 기사에 나온 비교 수치로는 Claude Mythos 프리뷰 83.1%, GPT-5.5-Cyber 81.8%보다 높음.

  • 벤치마크 수치만이 아니라 실제 윈도우 코드에서도 결과를 냈다고 밝힘
    • MS는 MDASH를 활용해 윈도우 네트워킹·인증 스택 전반에서 신규 취약점 16건을 발견했다고 함
    • 이 중에는 원격 코드 실행(RCE)이 가능한 Critical 등급 취약점도 포함됨
    • 보안팀 입장에서는 ‘취약해 보인다’ 수준이 아니라 재현 가능한 버그를 얼마나 찾느냐가 핵심인데, MS는 이 부분을 전면에 내세운 셈임
sequenceDiagram
    participant 보안팀
    participant 조율시스템
    participant 분석에이전트
    participant 검증에이전트
    participant 코드베이스
    보안팀->>조율시스템: 스캔 대상 지정
    조율시스템->>분석에이전트: 취약점 후보 탐색 요청
    분석에이전트->>코드베이스: 네트워킹·인증 스택 분석
    분석에이전트->>조율시스템: 후보와 근거 제출
    조율시스템->>검증에이전트: 재현·반박 요청
    검증에이전트->>코드베이스: 취약점 재현 시도
    검증에이전트->>조율시스템: 검증 결과 반환
    조율시스템->>보안팀: 확인된 취약점 보고
  • 이 흐름은 보안 자동화가 ‘AI가 코드 리뷰해줌’ 정도에서 한 단계 더 넘어가고 있다는 신호임

    • 취약점 탐지는 후보 생성보다 검증이 훨씬 중요함
    • 여러 에이전트가 서로 반박하게 만든 건 오탐을 줄이고 재현 가능성을 높이려는 설계로 볼 수 있음
    • 특히 100개 이상 에이전트라는 숫자는 보안 업무를 작은 전문 작업 단위로 쪼개려는 방향을 보여줌
  • 한국 개발자에게도 꽤 직접적인 이슈임

    • 대규모 코드베이스를 가진 조직이라면 SAST, 퍼징, 수동 보안 리뷰에 AI 에이전트 기반 분석이 붙는 흐름을 피하기 어려움
    • 다만 실제 도입에서는 벤치마크 성공률보다 사내 코드에서의 오탐률, 재현 로그, 패치 우선순위 산정이 더 중요해질 가능성이 큼

기술 맥락

  • MDASH가 단일 LLM 대신 여러 AI 에이전트를 쓴 이유는 보안 분석이 한 번에 답을 맞히는 문제가 아니기 때문이에요. 취약점 후보를 찾는 일, 그 후보가 진짜인지 재현하는 일, 영향도를 판단하는 일이 서로 다른 능력을 요구하거든요.

  • 토론형 구조도 같은 맥락이에요. 한 에이전트가 낸 결론을 다른 에이전트가 반박하거나 검증하게 만들면, 모델이 그럴듯한 설명만 만들고 끝나는 위험을 줄일 수 있어요. 보안에서는 그럴듯함보다 재현 가능성이 훨씬 중요해요.

  • MS가 CyberGym 수치와 윈도우 취약점 16건을 같이 제시한 것도 포인트예요. 벤치마크 88.4%만 있으면 실험실 성능처럼 보일 수 있는데, 실제 윈도우 네트워킹·인증 스택에서 신규 취약점을 찾았다는 사례가 붙으면서 실무 적용 가능성을 강조한 거예요.

  • 개발 조직 입장에서는 이런 시스템이 기존 SAST나 퍼징을 바로 대체한다기보다, 취약점 후보 생성과 재현 자동화를 보강하는 레이어로 들어올 가능성이 커요. 그래서 앞으로는 AI가 만든 보안 리포트를 사람이 어떻게 검증하고 패치 흐름에 연결할지가 더 중요한 운영 문제가 될 거예요.

보안 AI가 ‘코드 읽는 챗봇’에서 여러 에이전트가 가설을 만들고 반박하며 검증하는 자동화 시스템으로 넘어가는 분위기다. 수치만 보면 인상적이지만, 실제 고객 환경에서 오탐·재현성·책임 소재를 어떻게 다룰지가 진짜 승부처다.

댓글

댓글

댓글을 불러오는 중...

security

AI 에이전트 보안, 이제 권한이 아니라 ‘실행 증거’ 싸움으로 간다

오페이크가 AI 에이전트의 ID, 실행 환경, 도구 호출, 정책 적용 여부를 암호학적으로 검증하는 오페이크 3.0을 공개했다. 핵심은 에이전트 매니페스트와 컨피덴셜 MCP라는 두 오픈소스 기술이며, 기밀 컴퓨팅과 서명된 실행 증거를 결합해 감사자나 규제기관도 독립적으로 확인할 수 있게 하는 방향이다. AI 에이전트가 업무 시스템과 데이터를 직접 만지는 시대에는 접근 권한보다 ‘무슨 일을 했는지 증명할 수 있느냐’가 더 중요해지고 있다.

security

취약점 제보가 더 이상 특별하지 않은 시대가 왔다

전 Go 보안팀 리드였던 필리포 발소르다가 LLM 이후 취약점 제보의 의미가 바뀌었다고 주장한다. 예전에는 희소한 통찰과 비공개 제보가 귀했지만, 이제는 잠재 취약점을 찾는 것보다 실제 영향도를 빠르게 가려내는 triage가 병목이라는 얘기다.

security

스패로우, AI가 만든 코드 취약점 잡는 ‘Sparrow MCP’ 출시

스패로우가 AI 코딩 에이전트가 생성한 코드의 보안 취약점과 사용된 오픈소스를 실시간으로 검사하는 보안 어시스턴트 ‘Sparrow MCP’를 출시했다. 핵심 기능은 취약점 분석과 소프트웨어 자재명세서(SBOM) 생성이며, 앤트로픽의 모델 컨텍스트 프로토콜(MCP)을 지원하는 AI와 연결할 수 있다는 점이다. AI 코딩이 빨라질수록 보안 검증과 오픈소스 추적이 개발 파이프라인 안으로 더 깊게 들어오는 흐름이다.

security

오픈AI, 오픈소스 취약점 고치는 ‘패치 더 플래닛’ 시작

오픈AI가 트레일 오브 비츠와 함께 주요 오픈소스 프로젝트의 취약점을 AI로 찾고, 사람 검토를 거쳐 실제 패치까지 연결하는 프로그램을 시작했다. 파이썬, 고, cURL, 시그스토어, NATS 서버 같은 핵심 프로젝트가 초기 대상이고, 지금까지 수백 건의 보안 이슈와 수십 건의 병합된 패치가 나왔다. 핵심은 AI가 보안팀을 대체하는 게 아니라, 탐지·검증·패치·공개 조율을 빠르게 만드는 보조 엔진이라는 점이다.

security

오픈AI, 취약점 찾기부터 패치까지 돕는 ‘코덱스 시큐리티’ 공개

오픈AI가 사이버보안 이니셔티브 데이브레이크를 확대하면서 보안 전용 도구 코덱스 시큐리티와 GPT-5.5-사이버를 공개했다. 목표는 취약점 탐지에서 끝나는 게 아니라 검증, 위험도 평가, 패치 개발, 테스트, 배포까지 AI로 지원하는 것이다. cURL, Go, Python, Sigstore 등 30개 이상 오픈소스 프로젝트도 패치 지원 프로그램에 참여한다.