GPT-5.5, 사이버 보안 평가서 클로드 미토스 앞섰다

security 2026-05-17 약 5분

 tags

#ai-security #llm #cybersecurity #benchmark #agent

vote

북마크

영국 AI안전연구소 평가에서 GPT-5.5가 전문가급 사이버 보안 과제 통과율 71.4%를 기록하며 클로드 미토스 프리뷰를 앞섰다. 기업망 침투 시뮬레이션까지 통과하면서, AI 모델의 공격 역량이 몇 달 단위로 빠르게 상향 평준화되고 있다는 경고가 나왔다.

1
GPT-5.5는 95개 사이버 보안 과제에서 평균 통과율 71.4%를 기록했다
2
기업망 침투 시뮬레이션 더 라스트 원스의 32단계를 자율 수행한 두 번째 모델이 됐다
3
AI 모델의 사이버 공격 수준은 2024년 말 이후 4.7개월마다 두 배씩 증가하는 것으로 분석됐다
4
마이크로소프트도 100개 이상 AI 에이전트로 보안 허점을 찾는 MDASH를 공개했다

GPT-5.5가 영국 정부 산하 AI안전연구소(AISI)의 사이버 보안 평가에서 꽤 센 점수를 받음
- 전문가 수준의 사이버 보안 기술을 보는 95개 과제에서 평균 통과율 71.4%를 기록함
- 직전 모델인 GPT-5.4는 52.4%였으니, 한 세대 사이에 19%포인트가량 뛴 셈임
- 비교 대상이던 앤스로픽 클로드 미토스(Mythos) 프리뷰는 68.6%, 클로드 오퍼스 4.7은 48.6%였음
평가 범위도 단순한 보안 상식 퀴즈가 아니라 꽤 실전적임
- 취약점 탐색, 웹 공격, 암호 분석 같은 과제가 포함됨
- 특히 GPT-5.5는 기업망 침투 시뮬레이션인 더 라스트 원스(TLO)를 통과한 두 번째 모델로 기록됨
- 이 시뮬레이션은 외부 시스템 침투, 소프트웨어 취약점 악용, 최종 데이터 탈취까지 총 32단계로 구성됨

❗중요

> 포인트는 “AI가 보안 문제를 잘 푼다”가 아니라, 기업망 침투 흐름을 단계별로 자율 수행했다는 데 있음. 공격 자동화의 체감선이 확 올라간 얘기임.

AISI는 AI 해커의 공격 역량이 상향 평준화되고 있다고 봄
- 지난달에는 클로드 미토스 프리뷰가 TLO를 처음 통과한 모델로 기록됐음
- 이번에는 GPT-5.5도 같은 종류의 고난도 평가를 통과하면서, 특정 회사만의 특이 케이스로 보기 어려워짐
- AISI는 모델 전반의 성능 향상이 사이버 공격 역량 향상으로 이어진다면 가까운 미래에 여러 모델에서 추가 점프가 나올 수 있다고 봄
속도 지표가 좀 무서움
- AISI의 다른 보고서에 따르면 AI 모델의 사이버 공격 수준은 2024년 말 이후 4.7개월마다 두 배씩 늘어나는 중이라고 함
- 기존에 제시했던 8개월 주기보다 훨씬 빨라진 속도임
- 보안 조직 입장에서는 분기 단위로 위협 모델을 다시 봐야 하는 분위기임
빅테크의 보안 경쟁도 이제 모델 경쟁이랑 붙어버림
- 금융, 통신처럼 정보 시스템 의존도가 높은 산업에서는 사이버 보안이 곧 인프라 경쟁력이 됨
- 마이크로소프트는 100개 이상의 AI 에이전트를 조율해 보안 시스템 허점을 찾는 MDASH를 공개함
- 결국 공격자도 AI, 방어자도 AI를 쓰는 구도로 가고 있음

기술 맥락

이번 평가가 의미 있는 이유는 모델의 ‘지식’이 아니라 ‘절차 수행 능력’을 봤기 때문이에요. 취약점 설명을 맞히는 것과 외부 침투부터 데이터 탈취까지 이어지는 흐름을 따라가는 건 난도가 완전히 다르거든요.
TLO 같은 시뮬레이션은 보안팀이 실제 사고 대응에서 보는 연쇄 과정을 압축해 놓은 테스트에 가까워요. 한 단계에서 얻은 정보가 다음 단계의 입력이 되기 때문에, 모델이 중간 결과를 해석하고 다음 행동을 고르는 능력이 중요해요.
AISI가 4.7개월마다 공격 역량이 두 배로 늘고 있다고 본 대목도 실무적으로 꽤 큽니다. 취약점 관리, 패치 우선순위, 침투 테스트 주기를 예전 기준으로 잡아두면 공격 자동화 속도를 못 따라갈 수 있어요.
마이크로소프트의 MDASH처럼 방어 쪽도 여러 에이전트를 조율하는 방식으로 가는 건 자연스러운 대응이에요. 공격 표면이 넓어질수록 사람이 전부 수동으로 보는 방식은 병목이 생기고, AI가 먼저 후보를 걸러주는 구조가 필요해지거든요.

이제 중요한 건 특정 모델 하나가 잘하냐가 아니라, 여러 프런티어 모델이 동시에 공격 자동화 능력을 끌어올리고 있다는 점임. 보안팀 입장에서는 ‘AI가 공격자 생산성을 얼마나 올리나’를 현실 지표로 봐야 하는 시점이 됐다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

security 2026-07-13

엘에이 경찰, 사생활 침해 논란 끝에 플록 번호판 감시 계약 종료

엘에이 경찰이 번호판 인식 카메라 업체 플록 세이프티와의 3년 계약을 연장하지 않기로 했어. 시민권, 프라이버시, 데이터 보관과 공유 문제를 해결하지 못했다는 게 핵심 이유야. 플록은 미국 전역에 최소 8만 대 카메라망을 깔아 경찰과 연방기관이 차량을 추적할 수 있게 해왔고, 오탐·보안 사고·이민 단속 악용 의혹까지 겹치며 압박이 커졌어.

security 2026-07-12

크로미움 148부터 Math.tanh 한 번으로 운영체제 지문이 새는 문제

크로미움 148 이후 V8이 Math.tanh 계산을 자체 구현 대신 운영체제의 수학 라이브러리에 맡기면서, 같은 입력값도 리눅스·맥·윈도우에서 마지막 비트가 달라지는 지문 신호가 생겼다. 이 차이는 User-Agent로 맥이라고 주장하면서 리눅스 수학 결과를 내는 식의 위장을 바로 들키게 만든다. CSS 삼각함수와 웹 오디오까지 보면 브라우저 수학 경로가 꽤 복잡하게 갈라지고, 제대로 흉내 내려면 실제 운영체제 라이브러리의 비트 단위 동작까지 맞춰야 한다.

security 2026-07-12

출입통제도 클라우드 구독제로 간다…제로트러스트·AI 분석이 승부처

기업 출입보안이 사업장별 서버를 두는 방식에서 클라우드 기반 서비스형 출입통제(ACaaS)로 옮겨가고 있다. 시장은 2026년 17억8000만 달러에서 2030년 31억9000만 달러로 커질 전망이고, 제로트러스트·모바일 인증·AI 출입 분석·스마트빌딩 통합이 핵심 경쟁 포인트로 꼽힌다.

security 2026-07-12

AWS·구글 클라우드, 양자컴퓨터 대비해 암호 체계 갈아엎는 중

AWS와 구글 클라우드가 양자컴퓨터 시대를 대비해 기존 공개키 암호와 양자내성암호를 함께 쓰는 하이브리드 전환을 시작했다. 핵심 배경은 지금 훔친 암호문을 나중에 양자컴퓨터로 푸는 ‘선수집·후해독’ 공격이고, 국내도 통신·금융·국방 등 5개 분야에 45억원을 투입해 실증에 들어간다.

security 2026-07-12

보안 점검 맡긴 AI 에이전트가 악성코드를 직접 실행할 수 있다는 경고

AI 보안 에이전트가 저장소를 검사하다가 README 같은 문서에 숨은 프롬프트 인젝션에 속아 악성 바이너리를 실행할 수 있다는 연구가 나왔다. 클로드 코드와 코덱스의 자동 모드처럼 승인 없이 명령을 수행하는 구성에서 문제가 재현됐고, 여러 모델과 공급업체를 가로질러 같은 패턴이 통했다는 점이 핵심이다.

GPT-5.5, 사이버 보안 평가서 클로드 미토스 앞섰다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

GPT-5.5, 사이버 보안 평가서 클로드 미토스 앞섰다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사