프론티어 AI가 오픈 CTF 포맷을 망가뜨렸다는 보안 고수의 장문 비판

security 2026-05-16 약 11분

 tags

#ctf #llm #security #automation #benchmark

vote

북마크

CTF 상위권 플레이어였던 글쓴이는 최신 대규모 언어 모델이 중급 문제는 물론 일부 어려운 문제까지 에이전트로 풀어내면서, 공개 온라인 CTF의 점수판이 더 이상 인간 보안 실력을 반영하지 않는다고 주장해. 문제는 AI 보조 자체가 아니라, 모델이 추론과 풀이를 대신해 사람이 깃발만 복사하는 구조가 됐다는 점이야.

1
GPT-4 시기부터 중급 CTF 문제가 단일 프롬프트로 풀리기 시작했고, Opus 4.5 이후 에이전트 자동화가 본격화됨
2
공개 온라인 CTF는 보안 실력보다 모델 비용, 토큰, 오케스트레이션 능력을 재는 게임이 되고 있음
3
초보자에게 중요했던 성장 사다리와 챌린지 제작 문화가 함께 무너지고 있다는 비판이 핵심임

CTF 점수판이 예전 의미를 잃었다는 주장

글쓴이는 CTF를 싫어하는 사람이 아니라, 오히려 CTF로 보안에 빠진 상위권 플레이어임
- 2021년 대학 입학과 함께 첫 CTF인 HCKSYD에 참가했고, 48시간 솔로 대회를 2시간 만에 올솔브하고 우승했다고 함
- 이후 호주 최대 CTF인 DownUnderCTF에서 Blitzkrieg 팀으로 여러 번 우승했고, 국제 상위권 팀 TheHackersCrew에 합류해 2025년 말까지 유명 CTF에서 꾸준히 톱10 안에 들었음
- 그러니까 이 글은 “요즘 애들 AI 써서 싫다” 수준이 아니라, 판 안쪽에서 오래 뛴 사람이 느끼는 상실감에 가까움
그의 핵심 주장은 공개 온라인 CTF의 기존 포맷이 프론티어 AI 때문에 깨졌다는 것임
- CTF는 원래 문제를 풀며 보안 감각을 키우고, 순위로 성장과 실력을 확인하는 사다리였음
- 그런데 모델이 추론하고, 풀이 스크립트를 작성하고, 플래그까지 뽑아주면 사람에게 남는 건 복사와 제출뿐임
- 도구를 쓰는 게 문제는 아님. CTF 플레이어는 원래 도구를 많이 씀. 문제는 인간의 핵심 추론이 통째로 빠지는 순간임

AI가 어떻게 판을 바꿨나

GPT-4가 나왔을 때부터 중급 난이도 문제 상당수가 “원샷” 가능해지기 시작함
- 암호 문제를 ChatGPT에 붙여 넣고 10분 뒤 돌아오면 풀이와 플래그가 나오는 식이었다고 함
- 당시에는 어려운 문제는 여전히 잘 버텼고, 시간 절약 폭도 대회를 망칠 정도는 아니었다고 봄
분위기가 바뀐 건 Opus 4.5 이후라고 말함
- 거의 모든 중급 문제와 일부 하드 문제가 에이전트로 풀리기 시작했다는 주장임
- Claude Code가 CLI 형태로 도구 연결을 쉽게 만들면서, CTFd API를 써서 문제마다 Claude 인스턴스를 띄우는 오케스트레이터를 만드는 것도 쉬워졌다고 함
- 첫 1시간은 시스템이 쉬운 문제와 중간 문제를 태우게 두고, 사람은 남은 어려운 문제만 보면 되는 구조가 된 셈임

❗중요

> 글쓴이가 보는 변화는 “AI가 힌트를 준다”가 아님. 공개 CTF가 보안 실력 경쟁에서 모델 비용, 토큰 예산, 에이전트 오케스트레이션 경쟁으로 이동했다는 얘기임.

최신 모델에서는 난이도 경계가 더 밀렸다고 봄
- 글쓴이는 GPT-5.5와 GPT-5.5 Pro를 많이 써봤고, 벤치마크 기준으로 5.5는 Claude Mythos에 가깝고 Pro는 이를 넘을 가능성이 있다고 말함
- 이 모델들이 HackTheBox의 Insane 난이도 active leakless heap pwn 문제도 원샷으로 풀 수 있다고 주장함
- 작은 CTF 운영진이 현실적으로 낼 수 있는 문제의 큰 부분을 모델이 처리할 수 있고, 48시간 CTF에서 Pro를 계속 돌리면 종료 전 플래그를 얻을 가능성이 높다는 얘기임
그래서 공개 CTF가 점점 “돈 쓰면 유리한 게임”이 된다고 비판함
- 더 많은 토큰을 태울 수 있고, 더 오래 에이전트를 돌릴 수 있고, 더 넓은 컨텍스트를 쓸 수 있는 팀이 보드를 더 빨리 밀 수 있음
- Alias Robotics의 alias1 같은 보안 특화 모델보다 범용 프론티어 대규모 언어 모델(LLM)이 더 중요해지는 흐름도 언급함
- 결과적으로 “누가 보안을 더 잘 아는가”보다 “누가 충분한 에이전트를 오래 돌릴 수 있는가”가 커짐

초보자와 챌린지 제작자에게 생기는 손상

글쓴이는 초보자가 여전히 CTF로 배울 수 있다는 주장에도 회의적임
- CTF는 퍼즐 모음이 아니라 래더였음. 더 많은 문제를 풀고, 순위를 올리고, 좋은 팀에 들어가며 실력이 보이는 구조였음
- 그런데 점수판 위쪽이 AI 사용 팀으로 채워지면, 초보자는 실력을 쌓기 전에 AI부터 쓰는 쪽으로 밀림
- 적극적으로 막히고 고민하는 시간이 학습의 핵심인데, 그 부분을 모델이 대체하면 배움이 빈약해짐
공개 점수판이 자동화되면 동기부여도 깨짐
- 사람이 노력해도 눈에 보이는 순위 상승이 안 보이면 성장 피드백 루프가 망가짐
- 글쓴이는 초보자에게 picoGym, HackTheBox 같은 학습 플랫폼이 더 낫다고 말함
- 그곳은 경쟁 점수판이 아니라 교육이 목적이라, 스스로 배움을 훔치는 유인이 상대적으로 적기 때문임
문제 출제자 입장에서도 보상이 줄어듦
- 몇 주 동안 아름답고 새로운 문제를 만들어도 에이전트가 몇 분 만에 먹어치운다면 의욕이 꺾임
- 초보자용 CTF마저 조용히 프롬프트 붙여 넣는 게임이 되면, 출제자는 공개 대회보다 학습 플랫폼에 에너지를 쓰게 됨

“AI 보강된 CTF”라는 반론에 대한 반박

DEF CON 같은 최상위 결선은 아직 AI가 다 못 푸니 CTF는 살아 있다는 반론도 글쓴이는 잘못된 방어라고 봄
- 최상위 결선은 참가자가 매우 적고, 보통 예선으로 걸러짐
- 문제는 그 예선이 결선보다 쉬운 경우가 많다는 점임. 예선이 에이전트에 뚫리면, 진짜로 결선 문제를 풀 만한 사람들이 덜 올라갈 수 있음
- 극소수 엘리트 결선이 살아 있다고 해서, 대부분이 참여하는 공개 온라인 포맷이 건강하다는 뜻은 아니라는 얘기임
체스 엔진 비유도 꺼냄
- 체스는 이미 컴퓨터가 인간을 압도하지만, 공식 경기 중 엔진 사용은 금지됨
- 엔진은 분석, 훈련, 해설, 연습을 풍부하게 만들지만 경기자를 대체하진 않음
- 모든 체스 선수에게 경기 중 최고 엔진을 자유롭게 쓰게 하면 그게 공정한 경기인지, 볼 만한 경기인지, 인간 한계를 밀어붙이는 방식인지 묻는 것과 같다고 봄
“그럼 더 어려운 문제를 내면 되잖아”도 쉬운 답이 아님
- 운영진이 일반적인 문제를 내면 에이전트가 너무 많이 풀어버림
- 반대로 모델을 괴롭히는 식으로 문제를 꼬면 사람에게도 추측성, 과설계, 불쾌한 문제가 되기 쉬움
- 오래된 거부 문자열 트릭이나 프롬프트 인젝션 방해도 최신 모델에는 큰 장벽이 아니고, 웹 검색 기능은 학습 시점 이후 기술을 이용한 문제의 방어력도 약하게 만듦

⚠️주의

> 공개 온라인 CTF에서 “LLM 쓰지 마세요”라는 규칙은 사실상 집행하기 어렵다는 게 큰 문제임. 금지 규칙이 있어도 검증이 안 되면 정직한 팀만 손해 보는 구조가 됨.

결국 무엇이 죽었다는 건가

글쓴이가 죽었다고 말하는 건 보안 학습 자체도, AI 활용도, 최상위 연구도 아님
- 죽었다고 보는 건 공개 온라인 CTF 점수판이 인간 보안 실력을 보여주던 의미임
- 채용에서 CTF 성적을 실력 신호로 보는 관행도 점점 약해질 수밖에 없다고 봄
- 심지어 AI 실력을 재는 지표로도 별로 좋지 않다고 말함. 필요한 오케스트레이션 대부분은 이미 오픈소스거나 대충 코딩으로 만들 수 있기 때문임
커뮤니티의 이탈도 언급함
- 2026년 CTFTime 점수판은 이전 해들과 비교해 알아보기 어려울 정도라고 표현함
- TheHackersCrew를 비롯한 유명 팀들이 안 나오거나, 훨씬 적은 인원으로 뛰거나, 톱10 진입에 어려움을 겪는다고 함
- Plaid CTF 같은 좋은 대회가 더 이상 열리지 않는 사례도 언급함
이 감각은 글쓴이 혼자만의 감상이 아니라고 함
- 그의 로컬 팀 Emu Exploit 구성원들도 비슷하게 느낀다고 말함
- 이들은 국제 사이버보안 챔피언십, 버그바운티, Pwn2Own, Black Hat 발표 등에서 활동하는 고수들이라 단순 구경꾼이 아님
- 즉, CTF가 만들고 붙잡아두던 바로 그 사람들이 흥미를 잃고 있다는 게 핵심임
결론은 꽤 씁쓸함. 뭔가 새 포맷이 나올 수는 있지만, 지금의 공개 온라인 CTF를 예전과 같은 게임이라고 부르긴 어렵다는 것임
- 인간이 깊이 이해해서 어려운 문제를 풀었다는 감각
- 초보자가 상위권으로 올라가는 사다리
- 출제자가 기술과 미학을 담아 문제를 만드는 문화
- 글쓴이는 이 세 가지가 현재 포맷에서는 더 이상 제대로 이어지지 않는다고 봄

기술 맥락

여기서 핵심 선택지는 “CTF 중 AI 사용을 허용할 것인가, 금지할 것인가, 아니면 아예 새 포맷을 만들 것인가”예요. 왜냐하면 CTF는 단순 학습 콘텐츠가 아니라 점수판, 팀 선발, 채용 신호까지 연결된 경쟁 시스템이었거든요.
AI가 문제인 이유는 자동완성 수준을 넘어섰기 때문이에요. 모델이 취약점 분석, 풀이 전략, 익스플로잇 코드 작성까지 가져가면 사람은 검증과 제출만 하게 돼요. 그러면 점수는 보안 이해도가 아니라 에이전트 실행량과 모델 접근성을 더 많이 반영해요.
운영진이 “AI가 못 푸는 문제”를 만들 수도 있지만, 그 선택은 트레이드오프가 커요. 모델을 막으려고 문제를 일부러 이상하게 꼬면 사람도 배우기 어렵고 재미없는 문제가 되기 쉬워요. 반대로 사람에게 자연스러운 문제를 내면 최신 모델이 너무 많은 부분을 자동화할 수 있고요.
체스 엔진 비유가 중요한 이유도 여기에 있어요. 엔진은 훈련과 분석에는 엄청 유용하지만 경기 중 사용하면 경쟁의 의미가 사라져요. CTF에서도 대규모 언어 모델(LLM)을 공부 도구로 쓰는 것과 실시간 대회 풀이 엔진으로 쓰는 건 완전히 다른 문제예요.
결국 필요한 건 기술 금지가 아니라 포맷 재설계일 가능성이 커요. 예를 들어 교육용 플랫폼, 현장 결선, 방어형 과제, 사람의 설명과 검증을 평가하는 방식처럼 점수판이 다시 인간의 이해를 드러내도록 바뀌어야 해요. 글쓴이는 아직 답을 제시하진 않지만, 적어도 “예전 CTF가 그대로 살아 있다”는 말은 현실을 가린다고 보는 거예요.

보안 커뮤니티 입장에선 꽤 불편하지만 피하기 어려운 질문이야. AI를 도구로 쓰는 것과 경쟁 중 추론을 대체하게 두는 것은 완전히 다른 문제고, CTF 점수판이 채용과 성장의 신호로 쓰여왔다는 점 때문에 파장이 더 큼.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

security 2026-07-13

엘에이 경찰, 사생활 침해 논란 끝에 플록 번호판 감시 계약 종료

엘에이 경찰이 번호판 인식 카메라 업체 플록 세이프티와의 3년 계약을 연장하지 않기로 했어. 시민권, 프라이버시, 데이터 보관과 공유 문제를 해결하지 못했다는 게 핵심 이유야. 플록은 미국 전역에 최소 8만 대 카메라망을 깔아 경찰과 연방기관이 차량을 추적할 수 있게 해왔고, 오탐·보안 사고·이민 단속 악용 의혹까지 겹치며 압박이 커졌어.

security 2026-07-12

크로미움 148부터 Math.tanh 한 번으로 운영체제 지문이 새는 문제

크로미움 148 이후 V8이 Math.tanh 계산을 자체 구현 대신 운영체제의 수학 라이브러리에 맡기면서, 같은 입력값도 리눅스·맥·윈도우에서 마지막 비트가 달라지는 지문 신호가 생겼다. 이 차이는 User-Agent로 맥이라고 주장하면서 리눅스 수학 결과를 내는 식의 위장을 바로 들키게 만든다. CSS 삼각함수와 웹 오디오까지 보면 브라우저 수학 경로가 꽤 복잡하게 갈라지고, 제대로 흉내 내려면 실제 운영체제 라이브러리의 비트 단위 동작까지 맞춰야 한다.

security 2026-07-12

출입통제도 클라우드 구독제로 간다…제로트러스트·AI 분석이 승부처

기업 출입보안이 사업장별 서버를 두는 방식에서 클라우드 기반 서비스형 출입통제(ACaaS)로 옮겨가고 있다. 시장은 2026년 17억8000만 달러에서 2030년 31억9000만 달러로 커질 전망이고, 제로트러스트·모바일 인증·AI 출입 분석·스마트빌딩 통합이 핵심 경쟁 포인트로 꼽힌다.

security 2026-07-12

AWS·구글 클라우드, 양자컴퓨터 대비해 암호 체계 갈아엎는 중

AWS와 구글 클라우드가 양자컴퓨터 시대를 대비해 기존 공개키 암호와 양자내성암호를 함께 쓰는 하이브리드 전환을 시작했다. 핵심 배경은 지금 훔친 암호문을 나중에 양자컴퓨터로 푸는 ‘선수집·후해독’ 공격이고, 국내도 통신·금융·국방 등 5개 분야에 45억원을 투입해 실증에 들어간다.

security 2026-07-12

보안 점검 맡긴 AI 에이전트가 악성코드를 직접 실행할 수 있다는 경고

AI 보안 에이전트가 저장소를 검사하다가 README 같은 문서에 숨은 프롬프트 인젝션에 속아 악성 바이너리를 실행할 수 있다는 연구가 나왔다. 클로드 코드와 코덱스의 자동 모드처럼 승인 없이 명령을 수행하는 구성에서 문제가 재현됐고, 여러 모델과 공급업체를 가로질러 같은 패턴이 통했다는 점이 핵심이다.

프론티어 AI가 오픈 CTF 포맷을 망가뜨렸다는 보안 고수의 장문 비판

요약

핵심 포인트

핵심 개념

분석

CTF 점수판이 예전 의미를 잃었다는 주장

AI가 어떻게 판을 바꿨나

초보자와 챌린지 제작자에게 생기는 손상

“AI 보강된 CTF”라는 반론에 대한 반박

결국 무엇이 죽었다는 건가

기술 맥락

인사이트

댓글

댓글

프론티어 AI가 오픈 CTF 포맷을 망가뜨렸다는 보안 고수의 장문 비판

요약

핵심 포인트

핵심 개념

분석

CTF 점수판이 예전 의미를 잃었다는 주장

AI가 어떻게 판을 바꿨나

초보자와 챌린지 제작자에게 생기는 손상

“AI 보강된 CTF”라는 반론에 대한 반박

결국 무엇이 죽었다는 건가

기술 맥락

인사이트

댓글

댓글

관련 기사