취약한 앱 하나 만들고 1,500달러 태워서 LLM들이 해킹할 수 있는지 돌려본 후기
보안 연구자가 일부러 취약한 리액트 네이티브 앱과 파이썬 백엔드를 만들고, 여러 대규모 언어 모델(LLM)이 실제 취약점을 찾아낼 수 있는지 실험했어. 핵심 취약점은 API 자체가 아니라 앱에 들어 있는 파이어베이스 설정을 이용해 직접 가입하고 파이어스토어 데이터를 읽는 접근제어 실패였어. 결과는 GPT 5.5가 10회 중 7회 성공으로 가장 좋았고, 다른 모델들은 보안 거부, 엉뚱한 API 분석, 비용 폭발에 많이 막혔어.
- 1
실험 대상 취약점은 강화된 API 뒤에 열려 있는 파이어베이스 데이터 계층으로, 실제 모바일 앱에서도 흔히 나오는 접근제어 실패 유형임
- 2
GPT 5.5는 10회 중 7회 성공했고 평균 실행 비용은 6.62달러, 성공 1회당 비용은 9.46달러였음
- 3
딥시크 V4 프로는 10회 중 3회 성공했지만 평균 실행 비용이 0.19달러로 매우 낮았음
- 4
클로드 소넷 4.6과 클로드 오퍼스 4.8은 각각 10회 중 2회 성공했고, 여러 실행이 예산 제한이나 보안 가드레일에 걸림
- 5
큐원 3.7 맥스는 6회 모두 실패했는데 실행당 중앙값 토큰이 732만으로, 비용 대비 결과가 특히 나빴음
이 실험의 재미는 ‘어떤 모델이 제일 똑똑하냐’보다, 보안 작업에서 모델이 취약점의 레이어를 제대로 바꾸어 볼 수 있느냐에 있음. API만 두들기다 끝나는 모델과, 모바일 앱 설정에서 백엔드 데이터 계층으로 이동하는 모델의 차이가 그대로 성능 차이로 나왔어.
관련 기사
오픈소스 AI 모델로 자율형 AI 웜이 현실화될 수 있다는 연구 공개
토론토대, 벡터 연구소, 케임브리지대 연구진이 오픈웨이트 AI 모델만으로 자율형 AI 웜 프로토타입을 구현했다고 공개했음. 실험 환경에서 웜은 인간 개입 없이 취약점을 찾고, 공격 전략을 바꾸고, 침해한 GPU 자원을 이용해 네트워크로 확산했음.
IBM의 AI 개발 파트너 ‘밥’, 생산성 45% 올리고 보안까지 끼워 넣겠다는 얘기
IBM이 소프트웨어 배포 라이프사이클 파트너 ‘Bob’을 소개하면서 개발 생산성 45% 향상, 앱 현대화 최대 93% 개선을 내세웠어. 기사 전반은 AI 코딩 도구가 생산성을 올리는 동시에 공급망 공격과 보안 검증 부담을 키우는 현실을 짚고, Bob이 사람 승인과 시프트 레프트 보안으로 이 문제를 풀겠다는 내용이야.
한국형 AI 취약점 대응 허브 ‘K-글래스윙’ 추진
한국정보보호산업협회가 AI 기반 취약점 대응 체계인 K-글래스윙 출범을 추진한다. 해외 보안 특화 AI 프로젝트에만 기대기 어렵기 때문에, 국내 보안기업·AI 기업·공공기관이 함께 취약점 진단과 한국형 보안 AI 모델 개발을 맡는 구조다.
샘 올트먼·다리오 아모데이까지, ‘AI 생물학무기’ 막자고 미국 의회에 규제 촉구
오픈AI, 앤트로픽, 구글 딥마인드 등 주요 AI 기업 리더들이 미국 의회에 합성 핵산 판매 규제를 요구했다. AI가 바이러스학 같은 전문 영역의 지식 장벽을 낮추면서, 악의적 세력이 생물학무기 개발에 활용할 수 있다는 우려가 핵심임.
환자 의료기록 133GB가 공개 서버에 노출됐고, 병원은 답이 없었다
캘리포니아 백 앤 페인 스페셜리스트의 서버에서 환자 의료기록 133GB가 공개된 정황이 보고됐다. 제보자는 2026년 3월 31일 병원 측에 알렸지만 응답을 받지 못했고, 5월 20일 AWS에 신고한 뒤 6일 만에 서버가 조치됐다고 밝혔다. 이후 환자와 규제기관에 통지할 계획이 있는지 물었지만 답변은 없었다.
댓글
댓글
댓글을 불러오는 중...