GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행

security 2026-05-02 약 7분

 tags

#ai-security #llm #jailbreak #cybersecurity #benchmark

vote

북마크

원문 보기

영국 AI안전연구소 보고서에 따르면 클로드 미토스 프리뷰와 GPT-5.5가 숙련 보안 전문가에게 20시간 걸릴 만한 기업 네트워크 해킹 시나리오를 자율적으로 완수했다. 단일 모델의 우연한 성과가 아니라 프론티어 AI 전반이 사이버 작전 수행 능력의 새 임계점을 넘고 있다는 신호로 읽힌다.

1
GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함
2
기업 네트워크 해킹 시나리오에서는 클로드 미토스가 10번 중 3번, GPT-5.5가 10번 중 2번 성공함
3
정보 수집, 권한 탈취, 내부 이동, 데이터 유출까지 32단계 연속 공격을 모델이 스스로 설계하고 실행함
4
전문가들이 단 6시간 만에 GPT-5.5의 사이버 안전장치를 우회하는 유니버설 탈옥 방법을 찾아냈다는 점이 특히 위험함

AI가 ‘도구’에서 ‘작전 수행자’로 넘어가는 장면

영국 정부 산하 AI안전연구소가 2026년 4월 보고서에서 꽤 무거운 신호를 던짐
- 엔트로픽의 클로드 미토스 프리뷰에 이어 오픈AI의 GPT-5.5도, 숙련된 보안 전문가가 20시간은 써야 할 기업 네트워크 해킹 시나리오를 스스로 완수함
- 한 모델만 튄 게 아니라 서로 다른 회사의 모델 두 개가 비슷한 수준에 도달했다는 게 핵심임
- 기사 표현대로면 한 명의 천재가 나온 게 아니라 반 전체 평균이 갑자기 오른 상황에 가까움
이번 평가는 “취약점 하나 찾을 수 있냐” 같은 단발성 테스트가 아니었음
- 정보 수집에서 시작해 권한 탈취, 내부 시스템 이동, 최종 데이터 유출까지 32단계 연속 공격을 봄
- 미토스와 GPT-5.5 모두 목표를 받고, 경로를 설계하고, 필요한 단계를 이어가며 실제로 작전을 수행함
- 보안 자동화 도구가 아니라 자율 에이전트에 가까운 움직임을 보였다는 점이 무서운 부분임

❗중요

> GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함. 이전 세대 모델들이 50% 안팎에 머물렀던 걸 생각하면 꽤 큰 점프임.

수치로 보면 아직 무적은 아니지만, 방향은 명확함

기업 네트워크 해킹 시나리오에서는 성공률이 아직 낮음
- 클로드 미토스는 10번 중 3번, GPT-5.5는 10번 중 2번 성공함
- 성공률 100%가 아니니 “이제 인간 보안팀 끝났다” 같은 얘기는 과장임
- 발전소 같은 산업 제어 시스템 공격 시뮬레이션에서는 두 모델 모두 실패함
그래도 중요한 건 절대 성공률보다 추세임
- 더 많은 계산 자원을 투입할수록 성공률이 계속 올라갔고, 아직 정점이 보이지 않았다는 게 보고서의 포인트임
- 같은 모델이라도 더 오래 추론하게 만들면 결과가 좋아지는 구조라서, 위험 수준이 새 모델 출시 때만 뛰는 게 아님
- 공격자가 돈과 시간을 더 투입하면 같은 모델로도 위협 수준을 끌어올릴 수 있다는 얘기임
성능 차이도 생각보다 작음
- GPT-5.5의 엑스퍼트급 성공률은 약 71%, 클로드 미토스 프리뷰는 약 68%였음
- 이 정도면 “누가 1등이냐”보다 “프론티어 모델들이 같은 임계점 근처까지 왔다”가 더 중요한 해석임

진짜 위험한 대목은 안전장치 우회

보고서에서 가장 찝찝한 부분은 모델 능력보다 안전장치가 쉽게 뚫렸다는 점임
- 전문가들이 단 6시간 작업 끝에 GPT-5.5의 모든 사이버 안전장치를 우회하는 방법을 찾아냈다고 함
- 이른바 유니버설 탈옥으로, 모델이 악성 사이버 행위를 거부하도록 만든 장치를 무력화하는 방식임
- 모델이 강해지는 속도만큼 방어 장치도 강해져야 하는데, 여기서 균형이 깨질 수 있음

⚠️주의

> 공격 능력이 올라가는 것도 문제지만, 안전장치가 6시간 만에 우회됐다는 건 더 직접적인 경고임. 모델을 막는 층이 약하면 “능력은 있는데 못 쓰게 한다”는 전제가 쉽게 무너짐.

이 기술은 공격자만의 무기가 아님
- 영국 정부와 국가사이버보안센터는 같은 AI 기술을 방어에 활용하는 전략도 논의 중임
- GPT-5.5 같은 모델이 기업 시스템의 취약점을 먼저 찾아 패치하도록 쓰이면 방어 측에도 큰 무기가 됨
- 결국 미래 보안은 사람 대 사람보다 AI 대 AI의 속도전으로 바뀔 가능성이 큼

sequenceDiagram
    participant 연구소 as AI안전연구소
    participant 모델 as 프론티어 AI 모델
    participant 네트워크 as 기업 네트워크
    participant 안전장치 as 사이버 안전장치
    participant 방어팀 as 보안 방어팀
    연구소->>모델: 32단계 해킹 목표 제시
    모델->>네트워크: 정보 수집과 권한 탈취 시도
    모델->>네트워크: 내부 이동과 데이터 유출 수행
    연구소->>안전장치: 악성 행위 거부 여부 평가
    안전장치-->>연구소: 유니버설 탈옥으로 우회 가능
    방어팀->>모델: 취약점 탐지와 패치 자동화에 활용

기술 맥락

이번 평가가 중요한 이유는 AI에게 단일 문제를 푼 게 아니라 긴 공격 체인을 맡겼기 때문이에요. 보안 실무에서 진짜 어려운 건 취약점 하나보다, 정찰부터 권한 상승과 내부 이동까지 흐름을 끊기지 않게 이어가는 일이거든요.
GPT-5.5와 클로드 미토스가 비슷한 성적을 낸 것도 의미가 커요. 특정 회사의 운 좋은 데모가 아니라, 프론티어 모델 전반이 장기 계획형 사이버 작업에 가까워지고 있다는 뜻이라서 보안팀의 가정 자체가 바뀌어야 해요.
계산 자원을 더 주면 성공률이 올라갔다는 대목도 실무적으로 민감해요. 새 모델이 나오지 않아도, 같은 모델에 더 긴 추론 시간과 더 많은 시도를 허용하면 공격 품질이 올라갈 수 있기 때문이에요.
유니버설 탈옥은 안전 정책의 병목을 보여줘요. 모델 능력을 제한하는 장치가 약하면, 실제 위험은 모델 성능이 아니라 우회 가능한 운영 환경에서 터지거든요.
방어자 입장에서는 이걸 무조건 금지 대상으로만 볼 수는 없어요. 같은 능력을 취약점 탐지, 침해 시뮬레이션, 패치 우선순위 결정에 쓰면 방어 속도도 같이 올라갈 수 있기 때문이에요.

이제 보안팀이 봐야 할 건 ‘AI가 취약점 하나를 찾을 수 있나’가 아니라 ‘목표만 주면 공격 흐름 전체를 운영할 수 있나’임. 공격자와 방어자 모두 같은 급의 AI를 쓰게 되면, 보안 운영의 속도전이 훨씬 거칠어질 가능성이 큼.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

security 2026-05-01

AI 보안은 사람 속도로 못 막는다, 이제 기계 속도로 대응해야 한다

이 글은 클로드 미토스가 보여준 자율형 AI 공격 가능성을 계기로 기존 보안 전제가 흔들리고 있다고 주장한다. 알려진 패턴 탐지, 전문가 판단, 느려도 따라잡는 대응이라는 세 가지 믿음이 AI 공격 속도 앞에서 더 이상 충분하지 않다는 논지다.

security 2026-05-02

금융권 AI 가이드라인, ‘미토스 쇼크’ 때문에 보안 파트 다시 뜯어보는 중

국내 금융권 통합 AI 가이드라인 발표가 앤트로픽의 보안 특화 AI 모델 ‘클로드 미토스 프리뷰’ 공개 이후 늦어지고 있다. 금융당국과 신용정보원은 AI 개발·운영·보안 지침을 하나로 묶으려 했지만, AI가 직접 취약점을 찾고 침투 경로까지 설계할 수 있다는 우려 때문에 보안 기준을 다시 점검하는 분위기다.

security 2026-05-01

알파벳 투자자들, 정부 감시에 쓰이는 클라우드·AI 통제 공개하라고 압박

알파벳 주요 투자자들이 회사의 클라우드와 AI 기술이 정부 감시나 군사적 목적에 활용될 때 어떤 통제 장치가 있는지 설명하라고 요구했다. 42개 기관과 14명의 개인 투자자가 참여했고, 이들의 운용 자산은 1조1500억 달러 규모다.

security 2026-05-01

메타, 직원 PC 로그로 AI 학습 논란…저커버그 해명이 더 묘하다

메타가 미국 직원들의 업무용 컴퓨터에 추적 소프트웨어를 설치해 마우스 움직임, 클릭, 키 입력 등을 수집했다는 의혹이 제기됐다. 저커버그는 ‘똑똑한 직원들이 일하는 모습을 AI가 배워야 한다’는 취지로 설명했지만, 수집 범위와 민감 정보 제외 기준은 명확히 공개되지 않았다.

security 2026-05-01

시스코, 외부 AI 모델 출처 검증하는 오픈소스 툴 공개

시스코가 허깅페이스 같은 저장소에서 가져온 서드파티 AI 모델의 출처와 계보를 검증하는 오픈소스 도구를 공개했다. 모델 메타데이터와 가중치 수준 신호를 분석해 지문을 만들고, 비교·스캔 모드로 모델의 공통 계보를 추적하는 방식이다.

GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행

요약

핵심 포인트

핵심 개념

분석

AI가 ‘도구’에서 ‘작전 수행자’로 넘어가는 장면

수치로 보면 아직 무적은 아니지만, 방향은 명확함

진짜 위험한 대목은 안전장치 우회

기술 맥락

인사이트

댓글

댓글

GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행

요약

핵심 포인트

핵심 개념

분석

AI가 ‘도구’에서 ‘작전 수행자’로 넘어가는 장면

수치로 보면 아직 무적은 아니지만, 방향은 명확함

진짜 위험한 대목은 안전장치 우회

기술 맥락

인사이트

댓글

댓글

관련 기사