본문으로 건너뛰기
피드

소형 오픈 모델도 Anthropic Mythos가 찾은 취약점 대부분을 재현했다 — 해자는 모델이 아니라 시스템

ai-ml 약 12분
vote
0
댓글
북마크

AI 보안 스타트업 AISLE이 Anthropic Mythos의 쇼케이스 취약점들을 소형·저가 오픈 모델로 테스트한 결과, 36억 파라미터 모델도 FreeBSD NFS RCE를 탐지하고 51억 파라미터 모델이 27년 된 OpenBSD 버그를 복원했다. AI 사이버보안 능력은 모델 크기에 비례하지 않으며 태스크마다 순위가 완전히 뒤섞이는 '들쭉날쭉한 프론티어'를 보인다.

  • 1

    Mythos 대표 취약점 FreeBSD NFS RCE를 8/8 소형 모델이 단일 API 호출로 탐지

  • 2

    OWASP 거짓 양성 판별에서 소형 오픈 모델이 대형 프론티어 모델을 역전하는 역스케일링 현상 확인

  • 3

    AI 보안의 해자는 모델 지능이 아니라 탐지-검증-트리아지-패치 파이프라인과 보안 전문성

  • 4

    저렴한 모델로 광범위 스캔 후 비싼 모델로 검증하는 전략이 단일 프론티어 모델보다 효과적

  • 5

    익스플로잇 구성에서만 Mythos급 분리 존재, 방어 목적에는 소형 모델로 충분

Anthropic Mythos가 찾은 취약점, 작은 모델도 다 찾았다

  • AISLE이라는 AI 보안 스타트업이 Anthropic Mythos의 쇼케이스 취약점들을 소형·저가 오픈 모델로 돌려봤더니, 대부분의 분석 결과를 재현함
    • Mythos의 대표 성과인 FreeBSD NFS RCE 취약점(CVE-2026-4747)을 8개 모델 전부가 탐지 — 활성 파라미터 36억개, 토큰 100만개당 $0.11짜리 모델도 포함
    • 27년 된 OpenBSD SACK 버그의 핵심 체인도 활성 파라미터 51억개 오픈 모델이 단일 API 호출로 복원
  • AI 사이버보안 능력은 "들쭉날쭉한 프론티어(jagged frontier)"임 — 모델 크기나 가격에 비례해서 스케일링되지 않음
    • 기본적인 OWASP 보안 추론 태스크에서는 소형 오픈 모델이 대형 프론티어 모델을 역전
    • 태스크 바꾸면 순위가 완전히 뒤섞임: GPT-OSS-120b는 OpenBSD SACK 체인을 복원하면서도 Java ArrayList 데이터 흐름 추적은 실패, Qwen3 32B는 FreeBSD에서 CVSS 만점 평가를 내놓고 SACK 코드는 "robust"하다고 선언

중요

> 핵심 주장은 "해자(moat)는 모델이 아니라 시스템에 있다"는 것. AI 보안에서 진짜 중요한 건 탐지·검증·트리아지·패치까지 이어지는 파이프라인과 거기에 내장된 보안 전문성이라는 얘기.

배경: AISLE은 이미 실전에서 돌리고 있었음

  • AISLE은 2025년 중반부터 제로데이 탐지·검증·패치 시스템을 라이브 타겟 대상으로 운영 중
    • OpenSSL에서 CVE 15개 (단일 보안 릴리즈에서 12/12, 25년+ 된 버그 포함, CVSS 9.8 Critical)
    • curl에서 CVE 5개, 30개+ 프로젝트에서 180개+ 외부 검증 CVE
    • OpenSSL CTO가 "리포트 품질과 협업에 감사한다"고 할 정도의 메인테이너 신뢰 확보
  • 다양한 모델을 써봤는데 Anthropic 모델이 일관되게 최고 성능을 보인 건 아님 — 설계적으로 모델 중립(model-agnostic)

Mythos 발표의 문제: 파이프라인을 뭉뚱그림

  • Anthropic은 AI 보안을 "Mythos를 코드베이스에 갖다 대면 취약점을 찾고 익스플로잇한다"는 단일 능력으로 제시했는데, 실제로는 모듈별로 스케일링 특성이 완전히 다른 파이프라인임
    • 광범위 스캔 → 취약점 탐지 → 트리아지/검증 → 패치 생성 → (잠재적으로) 익스플로잇 구성
    • AI 보안의 생산함수 입력값: 토큰당 지능, 달러당 토큰, 초당 토큰, 그리고 시스템에 내장된 보안 전문성
  • 실용적 함의가 큼: 저렴한 모델로 광범위하게 스캔하면 비싼 모델 하나가 "어디를 볼지 추측"하는 것보다 더 많은 버그를 찾음
    • "1000명의 적당한 탐정이 도처를 수색하면, 어디를 볼지 골라야 하는 천재 탐정 1명보다 더 많이 찾는다"

실험 결과 상세

테스트 1: OWASP 거짓 양성(false positive) 판별

  • 교과서적인 SQL 인젝션처럼 보이지만 실제로는 안전한 Java 서블릿 코드를 25개+ 모델에 테스트
    • remove(0)get(1)이 상수 "moresafe"를 반환해서 사용자 입력이 폐기되는 구조
  • 거의 역스케일링: 소형 모델이 대형 프론티어 모델을 압도
    • ✅ GPT-OSS-20b (36억 활성 파라미터, $0.11/M 토큰): "유저 입력이 SQL 문에 도달하지 않음... 정적 분석 도구를 속일 수 있는 코드"
    • ✅ DeepSeek R1 (오픈 웨이트): 4회 시행 전부 정답
    • ✅ OpenAI o3: "우연히 안전함. 리팩토링 한 번이면 취약. Security-through-bug." — 이상적인 뉘앙스 답변
    • ❌ Claude Sonnet 4.5: 리스트를 자신있게 잘못 추적 — "Index 1: param → 이게 반환됨!" (아님)
    • ❌ GPT-4.1 전 모델, GPT-5.4 전 모델(o3, pro 제외), Opus 4.5까지 전부 탈락

테스트 2: FreeBSD NFS 익스플로잇 (Mythos의 대표작)

  • 17년 된 svc_rpc_gss_validate 함수의 스택 버퍼 오버플로 — 인증 없이 NFS 서버에 root 접근 가능
    • 8/8 모델 전부 탐지 (단일 제로샷 API 호출, 에이전트 없음)
    • DeepSeek R1이 가장 정밀: 헤더 필드까지 계산해서 실제 스택 레이아웃과 일치하는 40바이트 사용/88바이트 잔여 산출
  • 익스플로잇 추론도 진행: FreeBSD의 -fstack-protectorint32_t 배열을 계측 안 하는 점, KASLR 비활성화, ROP 기법 모두 정확히 식별
    • GPT-OSS-120b는 실제 익스플로잇과 유사한 가젯 시퀀스 생성
    • Kimi K2는 "황금기 익스플로잇 시나리오"라 부르며 웜 가능(wormable)하다는 걸 독자적으로 발견 (Anthropic 포스트에는 없는 디테일)
  • 304바이트 제약 문제에서 모델별 창의적 해법 제시
    • Mythos: 15회 RPC 요청으로 분할 전송 (각 32바이트를 커널 BSS에 쓰기)
    • DeepSeek R1: "304바이트면 충분" — prepare_kernel_cred(0)/commit_creds로 권한 상승 후 유저랜드에서 파일 조작 (더 실용적이라는 평가)
    • Gemini Flash Lite: 스택 피벗으로 커널 힙 메모리의 크레덴셜 버퍼로 RSP 리디렉션
    • Qwen3 32B: copyin으로 유저랜드에서 큰 페이로드를 커널 메모리로 복사하는 2단계 체인 로더

테스트 3: OpenBSD SACK 버그 (27년 된 최난도 취약점)

  • 부호 있는 정수 오버플로를 이용한 다단계 수학적 추론이 필요한 버그
    • SEQ_LT/SEQ_GT 매크로가 ~2^31 차이에서 오버플로, 모순적 비교를 동시에 통과하는 sack.start 설정 가능
  • GPT-OSS-120b (51억 활성 파라미터)가 단일 호출로 핵심 체인을 복원하고 실제 OpenBSD 패치와 일치하는 완화 방법 제안
  • 들쭉날쭉함의 증거: Qwen3 32B는 FreeBSD에서 CVSS 9.8을 매기고, 여기서는 "이 코드는 robust하다"고 선언

민감도 vs 특이도: 패치된 코드 테스트

  • 패치 전(취약) 코드: 모든 모델, 모든 시행에서 100% 탐지율
  • 패치 후(안전) 코드: 대부분의 모델이 거짓 양성 — "oa_length가 음수면 바이패스 가능"이라고 주장 (실제로는 u_int라서 불가능)
    • GPT-OSS-120b만 양방향에서 완벽하게 신뢰할 수 있었음
    • 이게 바로 시스템(스캐폴드 + 트리아지)이 필수인 이유 — 모델만으로는 메인테이너를 노이즈에 빠뜨림

💡

> 방어 워크플로에서는 풀 익스플로잇 구성보다 탐지·트리아지·패치가 훨씬 자주 필요함. 이 영역의 AI 능력은 이미 소형 오픈 모델로도 충분히 접근 가능하니, 지금 당장 파이프라인 구축을 시작하는 게 맞다는 주장.

진짜 차별화 지점은 어디인가

  • 익스플로잇 구성에서 Mythos급 능력이 진짜 분리되는 지점이 있긴 함
    • PTE 페이지 테이블 조작, HARDENED_USERCOPY 우회, JIT 힙 스프레이로 4개 브라우저 취약점 체이닝해서 샌드박스 탈출 — 이건 진짜 고급
    • "취약점을 재사용 가능한 빌딩 블록으로 보고, 15회 요청에 걸쳐 페이로드를 조립하는" 창의적 엔지니어링 단계가 진짜 분기점
  • 하지만 방어 목적(Project Glasswing의 명목적 용도)에서는 이 수준까지 갈 필요가 거의 없음

한계점과 주의사항

  • 이 테스트는 취약한 함수를 직접 제공하고 맥락 힌트도 줬음 — 자율 발견 파이프라인의 상한선
    • 실제 자율 스캔은 수십만 개 파일에서 힌트 없이 시작하는 것
  • 에이전트 테스팅(도구 접근, 코드 실행, 반복 루프) 없이 순수 API 호출만 사용
  • OWASP 테스트는 2025년 5월 원본이고 현재 Opus 4.6, Sonnet 4.6은 통과 — 하지만 소형 오픈 모델이 먼저 도달했다는 구조적 포인트는 유효
  • "Mythos가 못한다"가 아니라 "이 능력이 Mythos에만 있다는 프레이밍이 과장됐다"가 핵심 주장

기술 맥락

  • AI 보안 파이프라인이 "모델 하나의 지능"이 아니라 "시스템 전체의 설계"에 달려 있다는 건, 사실 ML Ops 전반에서 반복되는 패턴이에요. RAG든 코드 생성이든, 모델 자체보다 주변 스캐폴딩이 최종 품질을 좌우하는 경우가 많거든요. 이 글은 그 원칙이 보안이라는 고위험 도메인에서도 동일하게 적용된다는 걸 실증적으로 보여주고 있어요.

  • "들쭉날쭉한 프론티어(jagged frontier)"라는 개념이 핵심인데, 이건 모델 벤치마크를 볼 때 항상 주의해야 하는 포인트예요. 특정 태스크에서 1등인 모델이 다른 태스크에서 꼴찌가 될 수 있다는 건, 단일 리더보드 점수로 모델을 고르면 안 된다는 뜻이에요. AISLE은 이걸 "model-agnostic"이라는 설계 원칙으로 풀고 있고요.

  • FreeBSD 익스플로잇에서 304바이트 제약을 다루는 방식이 재밌어요. Mythos는 15회 RPC로 분할 전송하는 방법을 썼는데, DeepSeek R1은 아예 문제를 재정의해서 "304바이트면 충분하다"고 접근했거든요. 이게 모델마다 "창의성"의 방향이 다르다는 걸 잘 보여줘요. 실제 레드팀 연습에서도 공격 경로는 하나가 아니라 여러 개인 경우가 많고요.

  • 민감도(sensitivity) vs 특이도(specificity) 문제는 보안 도구의 고전적 딜레마예요. 모든 걸 취약하다고 외치면 탐지율 100%지만 쓸모가 없죠. 이 글에서 패치된 코드에 거짓 양성을 내는 모델이 대부분이라는 결과는, 모델 위에 트리아지 레이어가 없으면 메인테이너 신뢰를 잃는다는 걸 잘 보여줘요.

  • 비용 구조도 중요한 포인트예요. 토큰당 $0.11짜리 모델로 광범위하게 스캔하고, 비싼 모델은 검증 단계에만 쓰는 전략이 가능하다는 건, 보안 예산이 제한된 조직에도 AI 보안이 접근 가능하다는 뜻이거든요.

Anthropic이 Mythos를 제한 공개 모델로 포지셔닝한 것에 대한 실증적 반론으로, AI 보안 도구 선택 시 단일 모델 성능이 아닌 시스템 아키텍처와 파이프라인 설계에 집중해야 한다는 실무적 시사점이 크다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.