본문으로 건너뛰기
피드

프론티어 AI가 오픈 CTF 포맷을 망가뜨렸다는 보안 고수의 장문 비판

security 약 11분
vote
0
댓글
북마크

CTF 상위권 플레이어였던 글쓴이는 최신 대규모 언어 모델이 중급 문제는 물론 일부 어려운 문제까지 에이전트로 풀어내면서, 공개 온라인 CTF의 점수판이 더 이상 인간 보안 실력을 반영하지 않는다고 주장해. 문제는 AI 보조 자체가 아니라, 모델이 추론과 풀이를 대신해 사람이 깃발만 복사하는 구조가 됐다는 점이야.

  • 1

    GPT-4 시기부터 중급 CTF 문제가 단일 프롬프트로 풀리기 시작했고, Opus 4.5 이후 에이전트 자동화가 본격화됨

  • 2

    공개 온라인 CTF는 보안 실력보다 모델 비용, 토큰, 오케스트레이션 능력을 재는 게임이 되고 있음

  • 3

    초보자에게 중요했던 성장 사다리와 챌린지 제작 문화가 함께 무너지고 있다는 비판이 핵심임

CTF 점수판이 예전 의미를 잃었다는 주장

  • 글쓴이는 CTF를 싫어하는 사람이 아니라, 오히려 CTF로 보안에 빠진 상위권 플레이어임

    • 2021년 대학 입학과 함께 첫 CTF인 HCKSYD에 참가했고, 48시간 솔로 대회를 2시간 만에 올솔브하고 우승했다고 함
    • 이후 호주 최대 CTF인 DownUnderCTF에서 Blitzkrieg 팀으로 여러 번 우승했고, 국제 상위권 팀 TheHackersCrew에 합류해 2025년 말까지 유명 CTF에서 꾸준히 톱10 안에 들었음
    • 그러니까 이 글은 “요즘 애들 AI 써서 싫다” 수준이 아니라, 판 안쪽에서 오래 뛴 사람이 느끼는 상실감에 가까움
  • 그의 핵심 주장은 공개 온라인 CTF의 기존 포맷이 프론티어 AI 때문에 깨졌다는 것임

    • CTF는 원래 문제를 풀며 보안 감각을 키우고, 순위로 성장과 실력을 확인하는 사다리였음
    • 그런데 모델이 추론하고, 풀이 스크립트를 작성하고, 플래그까지 뽑아주면 사람에게 남는 건 복사와 제출뿐임
    • 도구를 쓰는 게 문제는 아님. CTF 플레이어는 원래 도구를 많이 씀. 문제는 인간의 핵심 추론이 통째로 빠지는 순간임

AI가 어떻게 판을 바꿨나

  • GPT-4가 나왔을 때부터 중급 난이도 문제 상당수가 “원샷” 가능해지기 시작함

    • 암호 문제를 ChatGPT에 붙여 넣고 10분 뒤 돌아오면 풀이와 플래그가 나오는 식이었다고 함
    • 당시에는 어려운 문제는 여전히 잘 버텼고, 시간 절약 폭도 대회를 망칠 정도는 아니었다고 봄
  • 분위기가 바뀐 건 Opus 4.5 이후라고 말함

    • 거의 모든 중급 문제와 일부 하드 문제가 에이전트로 풀리기 시작했다는 주장임
    • Claude Code가 CLI 형태로 도구 연결을 쉽게 만들면서, CTFd API를 써서 문제마다 Claude 인스턴스를 띄우는 오케스트레이터를 만드는 것도 쉬워졌다고 함
    • 첫 1시간은 시스템이 쉬운 문제와 중간 문제를 태우게 두고, 사람은 남은 어려운 문제만 보면 되는 구조가 된 셈임

중요

> 글쓴이가 보는 변화는 “AI가 힌트를 준다”가 아님. 공개 CTF가 보안 실력 경쟁에서 모델 비용, 토큰 예산, 에이전트 오케스트레이션 경쟁으로 이동했다는 얘기임.

  • 최신 모델에서는 난이도 경계가 더 밀렸다고 봄

    • 글쓴이는 GPT-5.5와 GPT-5.5 Pro를 많이 써봤고, 벤치마크 기준으로 5.5는 Claude Mythos에 가깝고 Pro는 이를 넘을 가능성이 있다고 말함
    • 이 모델들이 HackTheBox의 Insane 난이도 active leakless heap pwn 문제도 원샷으로 풀 수 있다고 주장함
    • 작은 CTF 운영진이 현실적으로 낼 수 있는 문제의 큰 부분을 모델이 처리할 수 있고, 48시간 CTF에서 Pro를 계속 돌리면 종료 전 플래그를 얻을 가능성이 높다는 얘기임
  • 그래서 공개 CTF가 점점 “돈 쓰면 유리한 게임”이 된다고 비판함

    • 더 많은 토큰을 태울 수 있고, 더 오래 에이전트를 돌릴 수 있고, 더 넓은 컨텍스트를 쓸 수 있는 팀이 보드를 더 빨리 밀 수 있음
    • Alias Robotics의 alias1 같은 보안 특화 모델보다 범용 프론티어 대규모 언어 모델(LLM)이 더 중요해지는 흐름도 언급함
    • 결과적으로 “누가 보안을 더 잘 아는가”보다 “누가 충분한 에이전트를 오래 돌릴 수 있는가”가 커짐

초보자와 챌린지 제작자에게 생기는 손상

  • 글쓴이는 초보자가 여전히 CTF로 배울 수 있다는 주장에도 회의적임

    • CTF는 퍼즐 모음이 아니라 래더였음. 더 많은 문제를 풀고, 순위를 올리고, 좋은 팀에 들어가며 실력이 보이는 구조였음
    • 그런데 점수판 위쪽이 AI 사용 팀으로 채워지면, 초보자는 실력을 쌓기 전에 AI부터 쓰는 쪽으로 밀림
    • 적극적으로 막히고 고민하는 시간이 학습의 핵심인데, 그 부분을 모델이 대체하면 배움이 빈약해짐
  • 공개 점수판이 자동화되면 동기부여도 깨짐

    • 사람이 노력해도 눈에 보이는 순위 상승이 안 보이면 성장 피드백 루프가 망가짐
    • 글쓴이는 초보자에게 picoGym, HackTheBox 같은 학습 플랫폼이 더 낫다고 말함
    • 그곳은 경쟁 점수판이 아니라 교육이 목적이라, 스스로 배움을 훔치는 유인이 상대적으로 적기 때문임
  • 문제 출제자 입장에서도 보상이 줄어듦

    • 몇 주 동안 아름답고 새로운 문제를 만들어도 에이전트가 몇 분 만에 먹어치운다면 의욕이 꺾임
    • 초보자용 CTF마저 조용히 프롬프트 붙여 넣는 게임이 되면, 출제자는 공개 대회보다 학습 플랫폼에 에너지를 쓰게 됨

“AI 보강된 CTF”라는 반론에 대한 반박

  • DEF CON 같은 최상위 결선은 아직 AI가 다 못 푸니 CTF는 살아 있다는 반론도 글쓴이는 잘못된 방어라고 봄

    • 최상위 결선은 참가자가 매우 적고, 보통 예선으로 걸러짐
    • 문제는 그 예선이 결선보다 쉬운 경우가 많다는 점임. 예선이 에이전트에 뚫리면, 진짜로 결선 문제를 풀 만한 사람들이 덜 올라갈 수 있음
    • 극소수 엘리트 결선이 살아 있다고 해서, 대부분이 참여하는 공개 온라인 포맷이 건강하다는 뜻은 아니라는 얘기임
  • 체스 엔진 비유도 꺼냄

    • 체스는 이미 컴퓨터가 인간을 압도하지만, 공식 경기 중 엔진 사용은 금지됨
    • 엔진은 분석, 훈련, 해설, 연습을 풍부하게 만들지만 경기자를 대체하진 않음
    • 모든 체스 선수에게 경기 중 최고 엔진을 자유롭게 쓰게 하면 그게 공정한 경기인지, 볼 만한 경기인지, 인간 한계를 밀어붙이는 방식인지 묻는 것과 같다고 봄
  • “그럼 더 어려운 문제를 내면 되잖아”도 쉬운 답이 아님

    • 운영진이 일반적인 문제를 내면 에이전트가 너무 많이 풀어버림
    • 반대로 모델을 괴롭히는 식으로 문제를 꼬면 사람에게도 추측성, 과설계, 불쾌한 문제가 되기 쉬움
    • 오래된 거부 문자열 트릭이나 프롬프트 인젝션 방해도 최신 모델에는 큰 장벽이 아니고, 웹 검색 기능은 학습 시점 이후 기술을 이용한 문제의 방어력도 약하게 만듦

⚠️주의

> 공개 온라인 CTF에서 “LLM 쓰지 마세요”라는 규칙은 사실상 집행하기 어렵다는 게 큰 문제임. 금지 규칙이 있어도 검증이 안 되면 정직한 팀만 손해 보는 구조가 됨.

결국 무엇이 죽었다는 건가

  • 글쓴이가 죽었다고 말하는 건 보안 학습 자체도, AI 활용도, 최상위 연구도 아님

    • 죽었다고 보는 건 공개 온라인 CTF 점수판이 인간 보안 실력을 보여주던 의미임
    • 채용에서 CTF 성적을 실력 신호로 보는 관행도 점점 약해질 수밖에 없다고 봄
    • 심지어 AI 실력을 재는 지표로도 별로 좋지 않다고 말함. 필요한 오케스트레이션 대부분은 이미 오픈소스거나 대충 코딩으로 만들 수 있기 때문임
  • 커뮤니티의 이탈도 언급함

    • 2026년 CTFTime 점수판은 이전 해들과 비교해 알아보기 어려울 정도라고 표현함
    • TheHackersCrew를 비롯한 유명 팀들이 안 나오거나, 훨씬 적은 인원으로 뛰거나, 톱10 진입에 어려움을 겪는다고 함
    • Plaid CTF 같은 좋은 대회가 더 이상 열리지 않는 사례도 언급함
  • 이 감각은 글쓴이 혼자만의 감상이 아니라고 함

    • 그의 로컬 팀 Emu Exploit 구성원들도 비슷하게 느낀다고 말함
    • 이들은 국제 사이버보안 챔피언십, 버그바운티, Pwn2Own, Black Hat 발표 등에서 활동하는 고수들이라 단순 구경꾼이 아님
    • 즉, CTF가 만들고 붙잡아두던 바로 그 사람들이 흥미를 잃고 있다는 게 핵심임
  • 결론은 꽤 씁쓸함. 뭔가 새 포맷이 나올 수는 있지만, 지금의 공개 온라인 CTF를 예전과 같은 게임이라고 부르긴 어렵다는 것임

    • 인간이 깊이 이해해서 어려운 문제를 풀었다는 감각
    • 초보자가 상위권으로 올라가는 사다리
    • 출제자가 기술과 미학을 담아 문제를 만드는 문화
    • 글쓴이는 이 세 가지가 현재 포맷에서는 더 이상 제대로 이어지지 않는다고 봄

기술 맥락

  • 여기서 핵심 선택지는 “CTF 중 AI 사용을 허용할 것인가, 금지할 것인가, 아니면 아예 새 포맷을 만들 것인가”예요. 왜냐하면 CTF는 단순 학습 콘텐츠가 아니라 점수판, 팀 선발, 채용 신호까지 연결된 경쟁 시스템이었거든요.

  • AI가 문제인 이유는 자동완성 수준을 넘어섰기 때문이에요. 모델이 취약점 분석, 풀이 전략, 익스플로잇 코드 작성까지 가져가면 사람은 검증과 제출만 하게 돼요. 그러면 점수는 보안 이해도가 아니라 에이전트 실행량과 모델 접근성을 더 많이 반영해요.

  • 운영진이 “AI가 못 푸는 문제”를 만들 수도 있지만, 그 선택은 트레이드오프가 커요. 모델을 막으려고 문제를 일부러 이상하게 꼬면 사람도 배우기 어렵고 재미없는 문제가 되기 쉬워요. 반대로 사람에게 자연스러운 문제를 내면 최신 모델이 너무 많은 부분을 자동화할 수 있고요.

  • 체스 엔진 비유가 중요한 이유도 여기에 있어요. 엔진은 훈련과 분석에는 엄청 유용하지만 경기 중 사용하면 경쟁의 의미가 사라져요. CTF에서도 대규모 언어 모델(LLM)을 공부 도구로 쓰는 것과 실시간 대회 풀이 엔진으로 쓰는 건 완전히 다른 문제예요.

  • 결국 필요한 건 기술 금지가 아니라 포맷 재설계일 가능성이 커요. 예를 들어 교육용 플랫폼, 현장 결선, 방어형 과제, 사람의 설명과 검증을 평가하는 방식처럼 점수판이 다시 인간의 이해를 드러내도록 바뀌어야 해요. 글쓴이는 아직 답을 제시하진 않지만, 적어도 “예전 CTF가 그대로 살아 있다”는 말은 현실을 가린다고 보는 거예요.

보안 커뮤니티 입장에선 꽤 불편하지만 피하기 어려운 질문이야. AI를 도구로 쓰는 것과 경쟁 중 추론을 대체하게 두는 것은 완전히 다른 문제고, CTF 점수판이 채용과 성장의 신호로 쓰여왔다는 점 때문에 파장이 더 큼.

댓글

댓글

댓글을 불러오는 중...

security

한양대 에리카와 네이버클라우드, 클라우드·보안·AI 인재 키우는 산학협력 체결

한양대 에리카가 네이버클라우드와 첨단 분야 지역인재 양성과 글로벌 산학협력을 위한 업무협약을 맺었다. 협력 범위는 클라우드, 사이버보안, 블록체인, 개인정보보호, 인공지능(AI), 디지털 전환(DX) 교육·연구 기반 구축까지 포함된다.

security

악성 npm 패키지가 AI 개발도구의 지침 파일과 MCP까지 노리기 시작함

이스트시큐리티가 웹과 탈중앙화금융 개발자를 겨냥한 악성 npm 패키지 캠페인을 포착했어. 공격자는 유명 웹3 도구를 사칭하는 데서 그치지 않고, AI 에이전트가 읽는 프로젝트 지침 파일과 MCP 기반 외부 도구 호출까지 공격 경로로 삼으려 했어.

security

금융권, 앤트로픽 미토스가 찾은 오픈소스 취약점에 긴급 점검 들어감

앤트로픽의 AI 모델 클로드 미토스가 1000개 넘는 오픈소스에서 대량의 취약점 후보를 찾아냈고, 그중 일부가 실제 취약점으로 검증돼 공개됐어. 금융당국은 nginx, wolfSSL, FreeRDP, Ghost 같은 널리 쓰이는 구성요소를 중심으로 금융권에 긴급 자산 점검과 패치 적용을 권고했어.

security

애플이 양자 내성 암호화 검증 코드를 공개했다, 핵심은 수학적 증명

애플이 corecrypto 라이브러리의 포스트 양자 암호화 구현과 검증 코드를 GitHub에 공개했다. ML-KEM, ML-DSA 구현과 형식 검증 접근을 공개해 보안 연구자들이 직접 검토할 수 있게 했고, 이 기술은 25억 대 이상 활성 기기에서 쓰이는 암호화 기반과 연결된다.

security

라라벨 번역 패키지 태그가 통째로 바뀌었다, 개발자 비밀값 털리는 공급망 공격

전 세계 라라벨 개발자가 쓰는 Laravel-Lang 패키지가 공격을 받아 Git 태그가 악성 버전을 가리키도록 바뀌었다. 5월 22일 약 90분 동안 4개 저장소의 태그가 교체됐고, 감염된 패키지는 AWS 키, GitHub 토큰, Stripe 시크릿, 암호화폐 지갑 복구 구문, SSH 개인키 등을 노렸다.