---
title: "소형 오픈 모델도 Anthropic Mythos가 찾은 취약점 대부분을 재현했다 — 해자는 모델이 아니라 시스템"
published: 2026-04-11T16:47:28.000Z
canonical: https://jeff.news/article/1675
---
# 소형 오픈 모델도 Anthropic Mythos가 찾은 취약점 대부분을 재현했다 — 해자는 모델이 아니라 시스템

AI 보안 스타트업 AISLE이 Anthropic Mythos의 쇼케이스 취약점들을 소형·저가 오픈 모델로 테스트한 결과, 36억 파라미터 모델도 FreeBSD NFS RCE를 탐지하고 51억 파라미터 모델이 27년 된 OpenBSD 버그를 복원했다. AI 사이버보안 능력은 모델 크기에 비례하지 않으며 태스크마다 순위가 완전히 뒤섞이는 '들쭉날쭉한 프론티어'를 보인다.

## Anthropic Mythos가 찾은 취약점, 작은 모델도 다 찾았다

- AISLE이라는 AI 보안 스타트업이 Anthropic Mythos의 쇼케이스 취약점들을 소형·저가 오픈 모델로 돌려봤더니, 대부분의 분석 결과를 재현함
  - Mythos의 대표 성과인 FreeBSD NFS RCE 취약점(CVE-2026-4747)을 8개 모델 전부가 탐지 — **활성 파라미터 36억개, 토큰 100만개당 $0.11짜리 모델도 포함**
  - 27년 된 OpenBSD SACK 버그의 핵심 체인도 활성 파라미터 51억개 오픈 모델이 단일 API 호출로 복원
- AI 사이버보안 능력은 "들쭉날쭉한 프론티어(jagged frontier)"임 — 모델 크기나 가격에 비례해서 스케일링되지 않음
  - 기본적인 OWASP 보안 추론 태스크에서는 소형 오픈 모델이 대형 프론티어 모델을 **역전**
  - 태스크 바꾸면 순위가 완전히 뒤섞임: GPT-OSS-120b는 OpenBSD SACK 체인을 복원하면서도 Java ArrayList 데이터 흐름 추적은 실패, Qwen3 32B는 FreeBSD에서 CVSS 만점 평가를 내놓고 SACK 코드는 "robust"하다고 선언

> [!IMPORTANT]
> 핵심 주장은 "해자(moat)는 모델이 아니라 시스템에 있다"는 것. AI 보안에서 진짜 중요한 건 탐지·검증·트리아지·패치까지 이어지는 파이프라인과 거기에 내장된 보안 전문성이라는 얘기.

## 배경: AISLE은 이미 실전에서 돌리고 있었음

- AISLE은 2025년 중반부터 제로데이 탐지·검증·패치 시스템을 라이브 타겟 대상으로 운영 중
  - OpenSSL에서 CVE 15개 (단일 보안 릴리즈에서 12/12, 25년+ 된 버그 포함, CVSS 9.8 Critical)
  - curl에서 CVE 5개, 30개+ 프로젝트에서 180개+ 외부 검증 CVE
  - OpenSSL CTO가 "리포트 품질과 협업에 감사한다"고 할 정도의 메인테이너 신뢰 확보
- 다양한 모델을 써봤는데 Anthropic 모델이 일관되게 최고 성능을 보인 건 아님 — **설계적으로 모델 중립(model-agnostic)**

## Mythos 발표의 문제: 파이프라인을 뭉뚱그림

- Anthropic은 AI 보안을 "Mythos를 코드베이스에 갖다 대면 취약점을 찾고 익스플로잇한다"는 단일 능력으로 제시했는데, 실제로는 모듈별로 스케일링 특성이 완전히 다른 파이프라인임
  - 광범위 스캔 → 취약점 탐지 → 트리아지/검증 → 패치 생성 → (잠재적으로) 익스플로잇 구성
  - AI 보안의 생산함수 입력값: 토큰당 지능, 달러당 토큰, 초당 토큰, **그리고 시스템에 내장된 보안 전문성**
- 실용적 함의가 큼: 저렴한 모델로 광범위하게 스캔하면 비싼 모델 하나가 "어디를 볼지 추측"하는 것보다 더 많은 버그를 찾음
  - "1000명의 적당한 탐정이 도처를 수색하면, 어디를 볼지 골라야 하는 천재 탐정 1명보다 더 많이 찾는다"

## 실험 결과 상세

### 테스트 1: OWASP 거짓 양성(false positive) 판별

- 교과서적인 SQL 인젝션처럼 보이지만 실제로는 안전한 Java 서블릿 코드를 25개+ 모델에 테스트
  - `remove(0)` 후 `get(1)`이 상수 "moresafe"를 반환해서 사용자 입력이 폐기되는 구조
- **거의 역스케일링**: 소형 모델이 대형 프론티어 모델을 압도
  - ✅ GPT-OSS-20b (36억 활성 파라미터, $0.11/M 토큰): "유저 입력이 SQL 문에 도달하지 않음... 정적 분석 도구를 속일 수 있는 코드"
  - ✅ DeepSeek R1 (오픈 웨이트): 4회 시행 전부 정답
  - ✅ OpenAI o3: "우연히 안전함. 리팩토링 한 번이면 취약. Security-through-bug." — 이상적인 뉘앙스 답변
  - ❌ Claude Sonnet 4.5: 리스트를 자신있게 잘못 추적 — "Index 1: param → 이게 반환됨!" (아님)
  - ❌ GPT-4.1 전 모델, GPT-5.4 전 모델(o3, pro 제외), Opus 4.5까지 전부 탈락

### 테스트 2: FreeBSD NFS 익스플로잇 (Mythos의 대표작)

- 17년 된 `svc_rpc_gss_validate` 함수의 스택 버퍼 오버플로 — 인증 없이 NFS 서버에 root 접근 가능
  - **8/8 모델 전부 탐지** (단일 제로샷 API 호출, 에이전트 없음)
  - DeepSeek R1이 가장 정밀: 헤더 필드까지 계산해서 실제 스택 레이아웃과 일치하는 40바이트 사용/88바이트 잔여 산출
- 익스플로잇 추론도 진행: FreeBSD의 `-fstack-protector`가 `int32_t` 배열을 계측 안 하는 점, KASLR 비활성화, ROP 기법 모두 정확히 식별
  - GPT-OSS-120b는 실제 익스플로잇과 유사한 가젯 시퀀스 생성
  - Kimi K2는 "황금기 익스플로잇 시나리오"라 부르며 **웜 가능(wormable)**하다는 걸 독자적으로 발견 (Anthropic 포스트에는 없는 디테일)
- 304바이트 제약 문제에서 모델별 창의적 해법 제시
  - Mythos: 15회 RPC 요청으로 분할 전송 (각 32바이트를 커널 BSS에 쓰기)
  - DeepSeek R1: "304바이트면 충분" — `prepare_kernel_cred(0)`/`commit_creds`로 권한 상승 후 유저랜드에서 파일 조작 (더 실용적이라는 평가)
  - Gemini Flash Lite: 스택 피벗으로 커널 힙 메모리의 크레덴셜 버퍼로 RSP 리디렉션
  - Qwen3 32B: `copyin`으로 유저랜드에서 큰 페이로드를 커널 메모리로 복사하는 2단계 체인 로더

### 테스트 3: OpenBSD SACK 버그 (27년 된 최난도 취약점)

- 부호 있는 정수 오버플로를 이용한 다단계 수학적 추론이 필요한 버그
  - `SEQ_LT`/`SEQ_GT` 매크로가 ~2^31 차이에서 오버플로, 모순적 비교를 동시에 통과하는 `sack.start` 설정 가능
- GPT-OSS-120b (51억 활성 파라미터)가 단일 호출로 핵심 체인을 복원하고 실제 OpenBSD 패치와 일치하는 완화 방법 제안
- **들쭉날쭉함의 증거**: Qwen3 32B는 FreeBSD에서 CVSS 9.8을 매기고, 여기서는 "이 코드는 robust하다"고 선언

### 민감도 vs 특이도: 패치된 코드 테스트

- 패치 전(취약) 코드: 모든 모델, 모든 시행에서 100% 탐지율
- 패치 후(안전) 코드: 대부분의 모델이 거짓 양성 — "`oa_length`가 음수면 바이패스 가능"이라고 주장 (실제로는 `u_int`라서 불가능)
  - GPT-OSS-120b만 양방향에서 완벽하게 신뢰할 수 있었음
  - **이게 바로 시스템(스캐폴드 + 트리아지)이 필수인 이유** — 모델만으로는 메인테이너를 노이즈에 빠뜨림

> [!TIP]
> 방어 워크플로에서는 풀 익스플로잇 구성보다 탐지·트리아지·패치가 훨씬 자주 필요함. 이 영역의 AI 능력은 이미 소형 오픈 모델로도 충분히 접근 가능하니, 지금 당장 파이프라인 구축을 시작하는 게 맞다는 주장.

## 진짜 차별화 지점은 어디인가

- 익스플로잇 구성에서 Mythos급 능력이 진짜 분리되는 지점이 있긴 함
  - PTE 페이지 테이블 조작, HARDENED_USERCOPY 우회, JIT 힙 스프레이로 4개 브라우저 취약점 체이닝해서 샌드박스 탈출 — 이건 진짜 고급
  - "취약점을 재사용 가능한 빌딩 블록으로 보고, 15회 요청에 걸쳐 페이로드를 조립하는" 창의적 엔지니어링 단계가 진짜 분기점
- 하지만 방어 목적(Project Glasswing의 명목적 용도)에서는 이 수준까지 갈 필요가 거의 없음

## 한계점과 주의사항

- 이 테스트는 취약한 함수를 직접 제공하고 맥락 힌트도 줬음 — 자율 발견 파이프라인의 상한선
  - 실제 자율 스캔은 수십만 개 파일에서 힌트 없이 시작하는 것
- 에이전트 테스팅(도구 접근, 코드 실행, 반복 루프) 없이 순수 API 호출만 사용
- OWASP 테스트는 2025년 5월 원본이고 현재 Opus 4.6, Sonnet 4.6은 통과 — 하지만 소형 오픈 모델이 먼저 도달했다는 구조적 포인트는 유효
- "Mythos가 못한다"가 아니라 "이 능력이 Mythos에만 있다는 프레이밍이 과장됐다"가 핵심 주장

---

## 기술 맥락

- AI 보안 파이프라인이 "모델 하나의 지능"이 아니라 "시스템 전체의 설계"에 달려 있다는 건, 사실 ML Ops 전반에서 반복되는 패턴이에요. RAG든 코드 생성이든, 모델 자체보다 주변 스캐폴딩이 최종 품질을 좌우하는 경우가 많거든요. 이 글은 그 원칙이 보안이라는 고위험 도메인에서도 동일하게 적용된다는 걸 실증적으로 보여주고 있어요.

- "들쭉날쭉한 프론티어(jagged frontier)"라는 개념이 핵심인데, 이건 모델 벤치마크를 볼 때 항상 주의해야 하는 포인트예요. 특정 태스크에서 1등인 모델이 다른 태스크에서 꼴찌가 될 수 있다는 건, 단일 리더보드 점수로 모델을 고르면 안 된다는 뜻이에요. AISLE은 이걸 "model-agnostic"이라는 설계 원칙으로 풀고 있고요.

- FreeBSD 익스플로잇에서 304바이트 제약을 다루는 방식이 재밌어요. Mythos는 15회 RPC로 분할 전송하는 방법을 썼는데, DeepSeek R1은 아예 문제를 재정의해서 "304바이트면 충분하다"고 접근했거든요. 이게 모델마다 "창의성"의 방향이 다르다는 걸 잘 보여줘요. 실제 레드팀 연습에서도 공격 경로는 하나가 아니라 여러 개인 경우가 많고요.

- 민감도(sensitivity) vs 특이도(specificity) 문제는 보안 도구의 고전적 딜레마예요. 모든 걸 취약하다고 외치면 탐지율 100%지만 쓸모가 없죠. 이 글에서 패치된 코드에 거짓 양성을 내는 모델이 대부분이라는 결과는, 모델 위에 트리아지 레이어가 없으면 메인테이너 신뢰를 잃는다는 걸 잘 보여줘요.

- 비용 구조도 중요한 포인트예요. 토큰당 $0.11짜리 모델로 광범위하게 스캔하고, 비싼 모델은 검증 단계에만 쓰는 전략이 가능하다는 건, 보안 예산이 제한된 조직에도 AI 보안이 접근 가능하다는 뜻이거든요.

## 핵심 포인트

- Mythos 대표 취약점 FreeBSD NFS RCE를 8/8 소형 모델이 단일 API 호출로 탐지
- OWASP 거짓 양성 판별에서 소형 오픈 모델이 대형 프론티어 모델을 역전하는 역스케일링 현상 확인
- AI 보안의 해자는 모델 지능이 아니라 탐지-검증-트리아지-패치 파이프라인과 보안 전문성
- 저렴한 모델로 광범위 스캔 후 비싼 모델로 검증하는 전략이 단일 프론티어 모델보다 효과적
- 익스플로잇 구성에서만 Mythos급 분리 존재, 방어 목적에는 소형 모델로 충분

## 인사이트

Anthropic이 Mythos를 제한 공개 모델로 포지셔닝한 것에 대한 실증적 반론으로, AI 보안 도구 선택 시 단일 모델 성능이 아닌 시스템 아키텍처와 파이프라인 설계에 집중해야 한다는 실무적 시사점이 크다.
