---
title: "GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행"
published: 2026-05-02T04:05:01.903Z
canonical: https://jeff.news/article/2050
---
# GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행

영국 AI안전연구소 보고서에 따르면 클로드 미토스 프리뷰와 GPT-5.5가 숙련 보안 전문가에게 20시간 걸릴 만한 기업 네트워크 해킹 시나리오를 자율적으로 완수했다. 단일 모델의 우연한 성과가 아니라 프론티어 AI 전반이 사이버 작전 수행 능력의 새 임계점을 넘고 있다는 신호로 읽힌다.

## AI가 ‘도구’에서 ‘작전 수행자’로 넘어가는 장면

- 영국 정부 산하 AI안전연구소가 2026년 4월 보고서에서 꽤 무거운 신호를 던짐
  - 엔트로픽의 클로드 미토스 프리뷰에 이어 오픈AI의 GPT-5.5도, 숙련된 보안 전문가가 20시간은 써야 할 기업 네트워크 해킹 시나리오를 스스로 완수함
  - 한 모델만 튄 게 아니라 서로 다른 회사의 모델 두 개가 비슷한 수준에 도달했다는 게 핵심임
  - 기사 표현대로면 한 명의 천재가 나온 게 아니라 반 전체 평균이 갑자기 오른 상황에 가까움

- 이번 평가는 “취약점 하나 찾을 수 있냐” 같은 단발성 테스트가 아니었음
  - 정보 수집에서 시작해 권한 탈취, 내부 시스템 이동, 최종 데이터 유출까지 32단계 연속 공격을 봄
  - 미토스와 GPT-5.5 모두 목표를 받고, 경로를 설계하고, 필요한 단계를 이어가며 실제로 작전을 수행함
  - 보안 자동화 도구가 아니라 자율 에이전트에 가까운 움직임을 보였다는 점이 무서운 부분임

> [!IMPORTANT]
> GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함. 이전 세대 모델들이 50% 안팎에 머물렀던 걸 생각하면 꽤 큰 점프임.

## 수치로 보면 아직 무적은 아니지만, 방향은 명확함

- 기업 네트워크 해킹 시나리오에서는 성공률이 아직 낮음
  - 클로드 미토스는 10번 중 3번, GPT-5.5는 10번 중 2번 성공함
  - 성공률 100%가 아니니 “이제 인간 보안팀 끝났다” 같은 얘기는 과장임
  - 발전소 같은 산업 제어 시스템 공격 시뮬레이션에서는 두 모델 모두 실패함

- 그래도 중요한 건 절대 성공률보다 추세임
  - 더 많은 계산 자원을 투입할수록 성공률이 계속 올라갔고, 아직 정점이 보이지 않았다는 게 보고서의 포인트임
  - 같은 모델이라도 더 오래 추론하게 만들면 결과가 좋아지는 구조라서, 위험 수준이 새 모델 출시 때만 뛰는 게 아님
  - 공격자가 돈과 시간을 더 투입하면 같은 모델로도 위협 수준을 끌어올릴 수 있다는 얘기임

- 성능 차이도 생각보다 작음
  - GPT-5.5의 엑스퍼트급 성공률은 약 71%, 클로드 미토스 프리뷰는 약 68%였음
  - 이 정도면 “누가 1등이냐”보다 “프론티어 모델들이 같은 임계점 근처까지 왔다”가 더 중요한 해석임

## 진짜 위험한 대목은 안전장치 우회

- 보고서에서 가장 찝찝한 부분은 모델 능력보다 안전장치가 쉽게 뚫렸다는 점임
  - 전문가들이 단 6시간 작업 끝에 GPT-5.5의 모든 사이버 안전장치를 우회하는 방법을 찾아냈다고 함
  - 이른바 유니버설 탈옥으로, 모델이 악성 사이버 행위를 거부하도록 만든 장치를 무력화하는 방식임
  - 모델이 강해지는 속도만큼 방어 장치도 강해져야 하는데, 여기서 균형이 깨질 수 있음

> [!WARNING]
> 공격 능력이 올라가는 것도 문제지만, 안전장치가 6시간 만에 우회됐다는 건 더 직접적인 경고임. 모델을 막는 층이 약하면 “능력은 있는데 못 쓰게 한다”는 전제가 쉽게 무너짐.

- 이 기술은 공격자만의 무기가 아님
  - 영국 정부와 국가사이버보안센터는 같은 AI 기술을 방어에 활용하는 전략도 논의 중임
  - GPT-5.5 같은 모델이 기업 시스템의 취약점을 먼저 찾아 패치하도록 쓰이면 방어 측에도 큰 무기가 됨
  - 결국 미래 보안은 사람 대 사람보다 AI 대 AI의 속도전으로 바뀔 가능성이 큼

```mermaid
sequenceDiagram
    participant 연구소 as AI안전연구소
    participant 모델 as 프론티어 AI 모델
    participant 네트워크 as 기업 네트워크
    participant 안전장치 as 사이버 안전장치
    participant 방어팀 as 보안 방어팀
    연구소->>모델: 32단계 해킹 목표 제시
    모델->>네트워크: 정보 수집과 권한 탈취 시도
    모델->>네트워크: 내부 이동과 데이터 유출 수행
    연구소->>안전장치: 악성 행위 거부 여부 평가
    안전장치-->>연구소: 유니버설 탈옥으로 우회 가능
    방어팀->>모델: 취약점 탐지와 패치 자동화에 활용
```

---
## 기술 맥락

- 이번 평가가 중요한 이유는 AI에게 단일 문제를 푼 게 아니라 긴 공격 체인을 맡겼기 때문이에요. 보안 실무에서 진짜 어려운 건 취약점 하나보다, 정찰부터 권한 상승과 내부 이동까지 흐름을 끊기지 않게 이어가는 일이거든요.

- GPT-5.5와 클로드 미토스가 비슷한 성적을 낸 것도 의미가 커요. 특정 회사의 운 좋은 데모가 아니라, 프론티어 모델 전반이 장기 계획형 사이버 작업에 가까워지고 있다는 뜻이라서 보안팀의 가정 자체가 바뀌어야 해요.

- 계산 자원을 더 주면 성공률이 올라갔다는 대목도 실무적으로 민감해요. 새 모델이 나오지 않아도, 같은 모델에 더 긴 추론 시간과 더 많은 시도를 허용하면 공격 품질이 올라갈 수 있기 때문이에요.

- 유니버설 탈옥은 안전 정책의 병목을 보여줘요. 모델 능력을 제한하는 장치가 약하면, 실제 위험은 모델 성능이 아니라 우회 가능한 운영 환경에서 터지거든요.

- 방어자 입장에서는 이걸 무조건 금지 대상으로만 볼 수는 없어요. 같은 능력을 취약점 탐지, 침해 시뮬레이션, 패치 우선순위 결정에 쓰면 방어 속도도 같이 올라갈 수 있기 때문이에요.

## 핵심 포인트

- GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함
- 기업 네트워크 해킹 시나리오에서는 클로드 미토스가 10번 중 3번, GPT-5.5가 10번 중 2번 성공함
- 정보 수집, 권한 탈취, 내부 이동, 데이터 유출까지 32단계 연속 공격을 모델이 스스로 설계하고 실행함
- 전문가들이 단 6시간 만에 GPT-5.5의 사이버 안전장치를 우회하는 유니버설 탈옥 방법을 찾아냈다는 점이 특히 위험함

## 인사이트

이제 보안팀이 봐야 할 건 ‘AI가 취약점 하나를 찾을 수 있나’가 아니라 ‘목표만 주면 공격 흐름 전체를 운영할 수 있나’임. 공격자와 방어자 모두 같은 급의 AI를 쓰게 되면, 보안 운영의 속도전이 훨씬 거칠어질 가능성이 큼.
