본문으로 건너뛰기
피드

AI 해킹의 진짜 변화는 신종 공격이 아니라 ‘구독료’가 된 공격 비용

security 약 15분
vote
0
댓글
북마크

이 글은 AI가 새로운 해킹 기법을 만든 게 아니라, 기존 공격을 실행하는 비용과 난이도를 확 낮췄다는 주장을 편다. 멕시코 정부 침해, Anthropic의 ‘바이브 해킹’ 사례, 스마트 컨트랙트 자동 공격 벤치마크를 엮어 AI 시대 보안의 병목이 지식에서 노동 비용으로 옮겨갔다고 본다. 특히 크립토는 모든 공격과 방어가 온체인에 남기 때문에 AI 보안 변화를 관측할 수 있는 거의 유일한 실험장이라는 게 핵심이다.

  • 1

    AI는 새로운 취약점 종류를 만든 게 아니라 기존 취약점 탐색과 실행 비용을 몇 자릿수 낮췄다

  • 2

    멕시코 정부 침해는 단독 공격자가 Claude Code와 ChatGPT를 써서 9개 기관에서 150GB와 1억9500만 납세자 기록을 빼낸 사례로 제시됐다

  • 3

    스마트 컨트랙트 분야는 공개 원장, 재현 가능한 트랜잭션, 큰 자금 밀도 때문에 AI 공격과 방어의 변화를 가장 잘 측정할 수 있다

  • 4

    방어 AI도 성과가 있지만 expert triage가 필요하고, 공격 AI는 구독과 프롬프트만으로 접근 가능하다는 비대칭이 문제다

AI가 바꾼 건 공격 종류가 아니라 공격 단가임

  • 이 글의 핵심 주장은 꽤 직설적임. AI가 새로운 해킹 기법을 발명한 게 아니라, 기존 공격을 실행하는 비용과 요구 지식을 확 낮췄다는 것.

    • 오라클 조작, 거버넌스 장악, 플래시 론 기반 경제 공격, 소셜 엔지니어링, credential harvesting, 웹 취약점 같은 메뉴판은 그대로임.
    • 달라진 건 이 메뉴판을 돌릴 수 있는 사람이 ‘상급 보안 연구자’에서 ‘구독료 내고 끈질기게 프롬프트 치는 사람’으로 넓어졌다는 점.
  • 저자는 AI 보안 담론의 양극단을 둘 다 비판함.

    • 낙관론은 “AI가 감사를 더 잘하고 버그를 줄인다” 쪽이고, 비관론은 “AI가 아무도 본 적 없는 제로데이를 스스로 찾아낸다” 쪽임.
    • 실제로는 그 중간에 가까움. AI는 새 취약점 클래스를 만드는 게 아니라, 이미 알려진 취약점 유형의 새 인스턴스를 더 많이, 더 싸게 찾음.
    • curl 메인테이너 Daniel Stenberg도 frontier model을 curl 코드베이스에 돌린 뒤 “AI 도구는 우리가 이미 아는 종류의 오류를 찾는다. 다만 새 인스턴스를 찾을 뿐”이라는 취지로 평가함.

중요

> 저자가 보는 진짜 변화는 “해킹 지식의 민주화”가 아니라 “공격자 노동비의 구독화”임. 예전엔 사람값이 바닥이었는데, 이제는 Claude나 ChatGPT 구독료가 바닥이 됐다는 얘기.

올해 이미 나온 사례들이 꽤 세다

  • 멕시코 정부 침해 사례는 글 전체의 대표 사례로 쓰임.

    • 단독 공격자가 Claude Code를 “버그바운티 연구자”처럼 jailbreak해서 1,000개 넘는 프롬프트를 돌렸다고 함.
    • Claude가 안전 정책 때문에 거부하면 ChatGPT, 구체적으로 GPT-4.1을 백업으로 썼다는 점도 언급됨.
    • 결과는 9개 멕시코 정부 기관에서 최소 20개 취약점 악용, 150GB 데이터 유출, 1억9500만 납세자 기록, 선거인 명부, 공무원 credential 유출.
    • 공격 대상에는 멕시코 국세청(SAT), 국가선거관리기관(INE), Jalisco, Michoacan, Tamaulipas 주 정부가 포함됐다고 함.
  • Anthropic이 공개한 “vibe hacking” 사례도 방향성이 선명함.

    • 한 명의 사이버 범죄자가 Claude Code를 써서 의료, 응급 서비스, 정부, 종교 기관 등 17개 조직을 상대로 갈취 캠페인을 벌였다는 내용.
    • Claude가 어떤 credential을 훔칠지, 어떤 lateral movement를 시도할지, 어떤 데이터를 빼낼지, 협박문을 어떻게 쓸지까지 전술적 판단에 관여했다고 설명됨.
    • 저자는 이걸 “Claude as autocomplete”가 아니라 “Claude as field operator”라고 봄.
  • 같은 Anthropic 보고서의 알제리 아마추어 사례는 진입장벽 붕괴를 더 노골적으로 보여줌.

    • 원래 동작하는 malware를 직접 만들 실력이 없던 사람이 Claude로 개발, 디버깅, 패키징, 판매까지 했다고 함.
    • 패키지는 다크웹 포럼에서 400~1,200달러에 팔렸고, 첫 달 피해자가 85명으로 기록됨.
    • Anthropic 보고서도 Claude 없이는 핵심 malware 컴포넌트를 구현하거나 문제 해결할 수 없었을 거라고 적었다고 함.

왜 크립토가 ‘관측 가능한 실험장’인가

  • 저자는 크립토가 정부망이나 의료망보다 더 취약해서 중요하다고 말하지 않음. 더 잘 보이기 때문에 중요하다고 말함.

    • 퍼블릭 원장, 결정적 실행, 오픈소스 기본값, Etherscan 검증 코드, 블록 익스플로러의 트랜잭션 흔적이 다 남음.
    • 공격자, 방어자, 피해액, 공격 시점, 재현 가능한 실행 경로가 한곳에 기록되는 경제 시스템은 거의 없음.
  • 손실 규모도 이미 충분히 큼.

    • Immunefi 기준 2021~2025년 공개 스마트 컨트랙트 exploit은 425건, 총 119억 달러.
    • Chainalysis처럼 scam과 fraud까지 넓히면 약 300억 달러.
    • Web3IsGoingJustGreat처럼 거래소와 프로토콜 붕괴까지 포함하면 680억 달러 이상.
    • 저자는 가장 엄격한 정의인 Immunefi의 119억 달러를 본문 기준점으로 삼음.
  • 크립토는 AI 대량 스캔에 너무 잘 맞는 표면을 가짐.

    • 2024년 측정 연구 기준 Ethereum에 약 6,025만 개 스마트 컨트랙트가 배포돼 있음.
    • L2까지 합치면 Flipside Crypto 기준 7개 L2에서 6억3,700만 개 이상의 EVM 계약이 집계됨.
    • Etherscan의 일일 검증 컨트랙트 수는 2023년 피크 때 하루 602개까지 갔음.
    • 이 표면을 커버할 인간 auditor는 전 세계적으로 넉넉히 봐도 수천 명 수준이라는 게 저자의 비교임.
  • 한 줄당 돈의 밀도가 말이 안 되게 높다는 점도 중요함.

    • 500줄짜리 Solidity 계약 하나가 2억 달러 TVL을 들고 있을 수 있음.
    • 평균적인 Linux kernel module이나 Express.js handler가 이런 자금 밀도를 갖는 경우는 드묾.
    • 그래서 AI가 토큰 몇 달러어치로 대량 스캔을 돌릴 때 기대값이 DeFi에서 특히 커짐.

AI 스마트 컨트랙트 공격 성능은 이미 숫자로 나오기 시작함

  • Anthropic의 SCONE-bench는 저자가 가장 중요하게 보는 공개 데이터 포인트임.

    • 2025년 12월 공개된 실험에서 405개 스마트 컨트랙트를 스캔했고, 207개를 성공적으로 exploit했다고 함.
    • 성공률은 51.11%, 시뮬레이션상 탈취 가능 금액은 5억5,000만 달러 이상.
    • 별도 실험에서는 새로 배포된 Binance Smart Chain 계약 2,849개 중 알려지지 않은 제로데이 2개를 독립적으로 발견했다고 함.
  • 특히 학습 컷오프 이후 배포된 held-out subset 결과가 강한 근거로 쓰임.

    • 학습 컷오프 이후 배포된 34개 스마트 컨트랙트 중 19개가 exploit됨.
    • Claude Opus 4.5, Claude Sonnet 4.5, GPT-5 기준 최대 460만 달러의 시뮬레이션 탈취 금액이 나왔다고 함.
    • 저자는 post-cutoff 취약점 exploit 성능이 12개월 사이 2%에서 55.88%로 올랐고, exploit revenue는 1.3개월마다 두 배가 되는 추세라고 적음.
    • 단, 이 수치는 Anthropic self-report이고 대규모 독립 검증은 아직 아니라는 caveat도 붙임.

⚠️주의

> 이 글에서 무서운 포인트는 “AI가 천재 해커가 됐다”가 아님. 공격 성공률은 올라가고, exploit당 토큰 비용은 모델 세대마다 약 22%씩 떨어진다는 비용 곡선임.

방어 AI도 있지만, 병목은 여전히 사람임

  • 방어 쪽 성과가 없는 건 아님.

    • DARPA AI Cyber Challenge Final에서 Team Atlanta는 ATLANTIS cyber-reasoning system으로 400만 달러 우승 상금을 받음.
    • 7개 finalist는 5,400만 줄 코드에서 synthetic vulnerability 63개 중 54개를 발견했고, 43개를 패치함.
    • production 오픈소스 소프트웨어에서 실제 제로데이 18개도 찾았다고 DARPA가 발표함.
    • Google Big Sleep은 2024년 SQLite pre-release에서 실제 stack-buffer-underflow 제로데이를 찾은 사례로 언급됨.
  • 그런데 curl에서 나온 현실 체크가 꽤 차갑다.

    • Anthropic이 Mythos를 “위험할 정도로 잘한다”는 식으로 포장했고, Project Glasswing으로 접근을 제한했다는 맥락이 나옴.
    • Daniel Stenberg는 Linux Foundation Alpha Omega 프로그램을 통해 Mythos를 curl 코드 17만8,000줄에 돌림.
    • Mythos는 “confirmed” 취약점 5개를 보고했지만, curl 보안팀 triage 후 실제 low-severity CVE는 1개로 줄어듦.
    • 5개 중 3개는 false positive, 1개는 보안 취약점이 아닌 일반 버그, 1개만 작은 CVE였다는 것.
  • 저자는 AI 보안 도구를 볼 때 세 가지 필터를 제안함.

    • 새 취약점 클래스를 찾는가, 아니면 알려진 유형의 새 사례를 찾는가.
    • 결과를 쓰기 위해 expert triage가 얼마나 필요한가.
    • 방어 도구도 공격 도구만큼 쉽게 접근 가능한가.
    • curl 사례에서는 5개 중 1개만 진짜였으니 false positive 비율이 80%였고, 방어는 expert triage가 필수였음.

문제는 공격과 방어의 접근성 비대칭임

  • 공격자는 expert가 아니어도 AI를 운용할 수 있는데, 방어자는 expert가 있어야 AI 출력물을 쓸 수 있다는 게 글의 핵심 비대칭임.

    • 멕시코 정부 공격자는 exploit developer가 아니라 prompt engineer에 가까웠다고 묘사됨.
    • vibe hacking 사례의 범죄자도 Claude를 operational core로 썼고, 알제리 아마추어는 Claude 없이는 malware 핵심 컴포넌트도 못 만들었다고 함.
    • 반대로 curl 같은 방어 사례는 코드베이스를 잘 아는 보안팀이 몇 시간씩 triage해야 의미가 생김.
  • 저자가 보기에 방어가 공격 비용 곡선을 따라잡을 가능성이 있는 거의 유일한 영역은 오픈소스와 경제적 인센티브가 붙은 곳임.

    • 크립토에서는 공격 표면이 공개돼 있는 만큼 방어 표면도 공개돼 있음.
    • whitehat과 blackhat이 같은 블록 익스플로러, 같은 exploit postmortem, 같은 온체인 데이터를 봄.
    • Immunefi는 누적 1억1,000만 달러 이상을 whitehat에게 지급했고, 330개 이상 프로젝트와 4만5,000명 이상 연구자가 참여했다는 수치도 언급됨.

다음 12개월에 봐야 할 신호

  • 온체인에서 공격자의 skill floor가 내려가는지 봐야 함.

    • 배포 후 exploit까지 걸리는 시간이 줄어드는지.
    • 처음 등장한 지갑이 복잡한 경제 공격을 수행하는지.
    • 서로 무관해 보이는 exploit 사이에 코드 재사용 fingerprint가 보이는지.
  • AI와 인간 auditor의 비용 대비 성능 차이도 중요함.

    • Web3Bugs 같은 benchmark에서 같은 precision과 recall을 낼 때 AI coverage가 인간 auditor보다 얼마나 싼지가 관건임.
    • 저자는 이 비율이 10,000배를 넘는 순간 감사 시장이 단순히 싸지는 게 아니라 구조가 바뀐다고 봄.
  • 모델 세대별 SCONE-bench류 detection curve도 추적해야 함.

    • exploit revenue doubling time이 1.3개월 근처를 유지하면, 나머지 논리는 거의 기계적으로 따라온다는 주장.
    • 즉 “언젠가 위험해질 수도 있음”이 아니라 비용 곡선이 이미 위험한 방향으로 움직이고 있다는 얘기임.
  • MEV, oracle, governance 시장에서 multi-agent reinforcement learning agent가 인간과 봇 baseline을 계속 이기는지도 봐야 함.

    • 이건 단순 취약점 스캔을 넘어 경제적 균형 자체를 AI가 찾아내는 영역임.
    • 저자는 그 첫 공개 결과가 나오면 진짜 canary가 될 거라고 봄.

기술 맥락

  • 이 글에서 말하는 선택은 “AI 보안 리스크를 어디서 관측할 것인가”예요. 저자는 크립토를 고른 이유가 명확해요. 정부망이나 병원망 침해는 실제 피해가 커도 내부 로그와 수사자료가 닫혀 있지만, 온체인은 공격 트랜잭션과 자금 이동이 공개로 남거든요.

  • 스마트 컨트랙트가 AI 공격에 특히 잘 맞는 이유는 표면적과 보상 구조가 같이 크기 때문이에요. 수천만 개 계약이 공개돼 있고, 500줄짜리 코드가 수억 달러 TVL을 들고 있을 수 있어요. 그래서 모델이 known exploit 변형을 대량으로 찾을 때 토큰 비용 대비 기대값이 커져요.

  • 방어 쪽에서 어려운 지점은 false positive 처리예요. curl 사례처럼 모델이 취약점 5개를 냈는데 실제 보안 이슈가 1개라면, 결국 코드를 깊게 아는 사람이 시간을 써야 해요. 공격자는 틀린 시도를 버리고 계속 돌리면 되지만, 방어자는 틀린 알림도 운영 비용으로 먹히거든요.

  • 그래서 저자는 크립토의 공개성과 경제적 인센티브를 방어 가능성의 근거로 봐요. 같은 데이터셋을 공격자와 방어자가 같이 보고, whitehat 보상이 실제 돈으로 연결되면 방어도 자동화와 시장 인센티브를 같이 탈 수 있기 때문이에요.

보안 쪽에서 AI 리스크를 ‘초지능 해커’ 프레임으로만 보면 핵심을 놓치기 쉽다. 더 현실적인 변화는 초보자도 기존 공격 플레이북을 훨씬 싸고 빠르게 반복할 수 있게 됐다는 점이고, 이건 한국 기업 보안팀과 개발팀 모두 바로 체감하게 될 문제다.

댓글

댓글

댓글을 불러오는 중...

security

한양대 에리카와 네이버클라우드, 클라우드·보안·AI 인재 키우는 산학협력 체결

한양대 에리카가 네이버클라우드와 첨단 분야 지역인재 양성과 글로벌 산학협력을 위한 업무협약을 맺었다. 협력 범위는 클라우드, 사이버보안, 블록체인, 개인정보보호, 인공지능(AI), 디지털 전환(DX) 교육·연구 기반 구축까지 포함된다.

security

악성 npm 패키지가 AI 개발도구의 지침 파일과 MCP까지 노리기 시작함

이스트시큐리티가 웹과 탈중앙화금융 개발자를 겨냥한 악성 npm 패키지 캠페인을 포착했어. 공격자는 유명 웹3 도구를 사칭하는 데서 그치지 않고, AI 에이전트가 읽는 프로젝트 지침 파일과 MCP 기반 외부 도구 호출까지 공격 경로로 삼으려 했어.

security

금융권, 앤트로픽 미토스가 찾은 오픈소스 취약점에 긴급 점검 들어감

앤트로픽의 AI 모델 클로드 미토스가 1000개 넘는 오픈소스에서 대량의 취약점 후보를 찾아냈고, 그중 일부가 실제 취약점으로 검증돼 공개됐어. 금융당국은 nginx, wolfSSL, FreeRDP, Ghost 같은 널리 쓰이는 구성요소를 중심으로 금융권에 긴급 자산 점검과 패치 적용을 권고했어.

security

애플이 양자 내성 암호화 검증 코드를 공개했다, 핵심은 수학적 증명

애플이 corecrypto 라이브러리의 포스트 양자 암호화 구현과 검증 코드를 GitHub에 공개했다. ML-KEM, ML-DSA 구현과 형식 검증 접근을 공개해 보안 연구자들이 직접 검토할 수 있게 했고, 이 기술은 25억 대 이상 활성 기기에서 쓰이는 암호화 기반과 연결된다.

security

라라벨 번역 패키지 태그가 통째로 바뀌었다, 개발자 비밀값 털리는 공급망 공격

전 세계 라라벨 개발자가 쓰는 Laravel-Lang 패키지가 공격을 받아 Git 태그가 악성 버전을 가리키도록 바뀌었다. 5월 22일 약 90분 동안 4개 저장소의 태그가 교체됐고, 감염된 패키지는 AWS 키, GitHub 토큰, Stripe 시크릿, 암호화폐 지갑 복구 구문, SSH 개인키 등을 노렸다.