본문으로 건너뛰기
피드

GPT-5.5와 클로드 미토스, 20시간짜리 해킹 시나리오를 스스로 끝까지 수행

security 약 7분
vote
0
댓글
북마크

영국 AI안전연구소 보고서에 따르면 클로드 미토스 프리뷰와 GPT-5.5가 숙련 보안 전문가에게 20시간 걸릴 만한 기업 네트워크 해킹 시나리오를 자율적으로 완수했다. 단일 모델의 우연한 성과가 아니라 프론티어 AI 전반이 사이버 작전 수행 능력의 새 임계점을 넘고 있다는 신호로 읽힌다.

  • 1

    GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함

  • 2

    기업 네트워크 해킹 시나리오에서는 클로드 미토스가 10번 중 3번, GPT-5.5가 10번 중 2번 성공함

  • 3

    정보 수집, 권한 탈취, 내부 이동, 데이터 유출까지 32단계 연속 공격을 모델이 스스로 설계하고 실행함

  • 4

    전문가들이 단 6시간 만에 GPT-5.5의 사이버 안전장치를 우회하는 유니버설 탈옥 방법을 찾아냈다는 점이 특히 위험함

AI가 ‘도구’에서 ‘작전 수행자’로 넘어가는 장면

  • 영국 정부 산하 AI안전연구소가 2026년 4월 보고서에서 꽤 무거운 신호를 던짐

    • 엔트로픽의 클로드 미토스 프리뷰에 이어 오픈AI의 GPT-5.5도, 숙련된 보안 전문가가 20시간은 써야 할 기업 네트워크 해킹 시나리오를 스스로 완수함
    • 한 모델만 튄 게 아니라 서로 다른 회사의 모델 두 개가 비슷한 수준에 도달했다는 게 핵심임
    • 기사 표현대로면 한 명의 천재가 나온 게 아니라 반 전체 평균이 갑자기 오른 상황에 가까움
  • 이번 평가는 “취약점 하나 찾을 수 있냐” 같은 단발성 테스트가 아니었음

    • 정보 수집에서 시작해 권한 탈취, 내부 시스템 이동, 최종 데이터 유출까지 32단계 연속 공격을 봄
    • 미토스와 GPT-5.5 모두 목표를 받고, 경로를 설계하고, 필요한 단계를 이어가며 실제로 작전을 수행함
    • 보안 자동화 도구가 아니라 자율 에이전트에 가까운 움직임을 보였다는 점이 무서운 부분임

중요

> GPT-5.5는 고난도 사이버 작업의 엑스퍼트급 문제에서 약 71%, 클로드 미토스 프리뷰는 약 68% 성공률을 기록함. 이전 세대 모델들이 50% 안팎에 머물렀던 걸 생각하면 꽤 큰 점프임.

수치로 보면 아직 무적은 아니지만, 방향은 명확함

  • 기업 네트워크 해킹 시나리오에서는 성공률이 아직 낮음

    • 클로드 미토스는 10번 중 3번, GPT-5.5는 10번 중 2번 성공함
    • 성공률 100%가 아니니 “이제 인간 보안팀 끝났다” 같은 얘기는 과장임
    • 발전소 같은 산업 제어 시스템 공격 시뮬레이션에서는 두 모델 모두 실패함
  • 그래도 중요한 건 절대 성공률보다 추세임

    • 더 많은 계산 자원을 투입할수록 성공률이 계속 올라갔고, 아직 정점이 보이지 않았다는 게 보고서의 포인트임
    • 같은 모델이라도 더 오래 추론하게 만들면 결과가 좋아지는 구조라서, 위험 수준이 새 모델 출시 때만 뛰는 게 아님
    • 공격자가 돈과 시간을 더 투입하면 같은 모델로도 위협 수준을 끌어올릴 수 있다는 얘기임
  • 성능 차이도 생각보다 작음

    • GPT-5.5의 엑스퍼트급 성공률은 약 71%, 클로드 미토스 프리뷰는 약 68%였음
    • 이 정도면 “누가 1등이냐”보다 “프론티어 모델들이 같은 임계점 근처까지 왔다”가 더 중요한 해석임

진짜 위험한 대목은 안전장치 우회

  • 보고서에서 가장 찝찝한 부분은 모델 능력보다 안전장치가 쉽게 뚫렸다는 점임
    • 전문가들이 단 6시간 작업 끝에 GPT-5.5의 모든 사이버 안전장치를 우회하는 방법을 찾아냈다고 함
    • 이른바 유니버설 탈옥으로, 모델이 악성 사이버 행위를 거부하도록 만든 장치를 무력화하는 방식임
    • 모델이 강해지는 속도만큼 방어 장치도 강해져야 하는데, 여기서 균형이 깨질 수 있음

⚠️주의

> 공격 능력이 올라가는 것도 문제지만, 안전장치가 6시간 만에 우회됐다는 건 더 직접적인 경고임. 모델을 막는 층이 약하면 “능력은 있는데 못 쓰게 한다”는 전제가 쉽게 무너짐.

  • 이 기술은 공격자만의 무기가 아님
    • 영국 정부와 국가사이버보안센터는 같은 AI 기술을 방어에 활용하는 전략도 논의 중임
    • GPT-5.5 같은 모델이 기업 시스템의 취약점을 먼저 찾아 패치하도록 쓰이면 방어 측에도 큰 무기가 됨
    • 결국 미래 보안은 사람 대 사람보다 AI 대 AI의 속도전으로 바뀔 가능성이 큼
sequenceDiagram
    participant 연구소 as AI안전연구소
    participant 모델 as 프론티어 AI 모델
    participant 네트워크 as 기업 네트워크
    participant 안전장치 as 사이버 안전장치
    participant 방어팀 as 보안 방어팀
    연구소->>모델: 32단계 해킹 목표 제시
    모델->>네트워크: 정보 수집과 권한 탈취 시도
    모델->>네트워크: 내부 이동과 데이터 유출 수행
    연구소->>안전장치: 악성 행위 거부 여부 평가
    안전장치-->>연구소: 유니버설 탈옥으로 우회 가능
    방어팀->>모델: 취약점 탐지와 패치 자동화에 활용

기술 맥락

  • 이번 평가가 중요한 이유는 AI에게 단일 문제를 푼 게 아니라 긴 공격 체인을 맡겼기 때문이에요. 보안 실무에서 진짜 어려운 건 취약점 하나보다, 정찰부터 권한 상승과 내부 이동까지 흐름을 끊기지 않게 이어가는 일이거든요.

  • GPT-5.5와 클로드 미토스가 비슷한 성적을 낸 것도 의미가 커요. 특정 회사의 운 좋은 데모가 아니라, 프론티어 모델 전반이 장기 계획형 사이버 작업에 가까워지고 있다는 뜻이라서 보안팀의 가정 자체가 바뀌어야 해요.

  • 계산 자원을 더 주면 성공률이 올라갔다는 대목도 실무적으로 민감해요. 새 모델이 나오지 않아도, 같은 모델에 더 긴 추론 시간과 더 많은 시도를 허용하면 공격 품질이 올라갈 수 있기 때문이에요.

  • 유니버설 탈옥은 안전 정책의 병목을 보여줘요. 모델 능력을 제한하는 장치가 약하면, 실제 위험은 모델 성능이 아니라 우회 가능한 운영 환경에서 터지거든요.

  • 방어자 입장에서는 이걸 무조건 금지 대상으로만 볼 수는 없어요. 같은 능력을 취약점 탐지, 침해 시뮬레이션, 패치 우선순위 결정에 쓰면 방어 속도도 같이 올라갈 수 있기 때문이에요.

이제 보안팀이 봐야 할 건 ‘AI가 취약점 하나를 찾을 수 있나’가 아니라 ‘목표만 주면 공격 흐름 전체를 운영할 수 있나’임. 공격자와 방어자 모두 같은 급의 AI를 쓰게 되면, 보안 운영의 속도전이 훨씬 거칠어질 가능성이 큼.

댓글

댓글

댓글을 불러오는 중...

security

엑스게이트, 양자보안·AI 방화벽으로 VPN 이후 먹거리 찾는다

국내 VPN 시장 1위 사업자인 엑스게이트가 기존 VPN·방화벽 사업을 기반으로 양자보안과 AI 차세대 방화벽을 성장축으로 삼겠다고 밝혔다. QRNG와 PQC를 결합한 AX-Quantum 플랫폼, 국방 시범사업, LLM 기반 자연어 보안장비 제어가 주요 포인트다.

security

에이씨앤티시스템·센스톤, 수처리 OT 보안에 단방향 동적 인증 붙인다

에이씨앤티시스템과 센스톤이 OT 보안 솔루션 공동 개발을 위한 업무협약을 맺었다. 센스톤의 OTAC 단방향 동적 인증 기술을 산업용 제어망 장비와 EtherFOS에 접목하고, 수처리 시설을 시작으로 반도체·에너지·플랜트 분야까지 확장하는 구상이다.

security

에버스핀, 웹 보안 게이트웨이에 양자내성암호 전송 보호 붙였다

에버스핀이 웹 보안 플랫폼 에버세이프 웹 클라우드 버전에 포스트 양자암호(PQC) 기반 전송구간 보호 기능을 넣었다. TLS 1.3 기반 하이브리드 키 교환 방식인 X25519MLKEM768을 활용해, 지금 훔쳐간 암호문을 나중에 양자컴퓨터로 푸는 수집 후 해독 위험까지 겨냥한다.

security

지캐시, 앤트로픽 AI 감사로 추가 중대 취약점은 못 찾았다고 발표

지캐시 창시자 주코 윌콕스가 앤트로픽 AI 모델을 활용한 추가 보안 감사 결과를 공개했다. 최근 오차드 풀에서 가짜 ZEC를 무한 생성할 수 있는 위조 취약점이 발견돼 수정된 뒤, 같은 맥락에서 추가 중대 취약점이 있는지 확인한 것이다.

security

티빙 개인정보 유출, 비밀번호보다 더 무서운 건 CI와 DI가 새었다는 점

티빙 개인정보 유출 사고를 두고 국내 플랫폼 보안의 취약함을 지적한 글이다. 특히 이름, 생년월일, 휴대전화번호, 비밀번호뿐 아니라 변경이 어려운 CI와 DI까지 유출됐다는 점에서 2차 피해 위험이 크다고 본다.