---
title: "인공지능 취약점 리포트가 쏟아진다, 이제 보안의 병목은 탐지가 아니라 판별"
published: 2026-05-29T00:05:02.747Z
canonical: https://jeff.news/article/3473
---
# 인공지능 취약점 리포트가 쏟아진다, 이제 보안의 병목은 탐지가 아니라 판별

오픈소스 보안 생태계가 인공지능 기반 취약점 제보의 폭증으로 새로운 피로를 겪고 있다. 오더블유에이에스피 서울 세미나에서는 인공지능이 후보를 찾는 시대에 인간 보안 실무자가 어떻게 진짜 위험한 취약점을 가려낼지 논의됐다.

- 인공지능 덕분에 취약점 찾기의 진입 장벽은 낮아졌는데, 이제 문제는 ‘너무 많이 나온다’는 쪽으로 바뀌었음
  - 오더블유에이에스피 서울 챕터 5월 세미나에서 나온 핵심 문제의식은 꽤 직설적임
  - 취약점 후보를 찾는 행동 비용은 낮아졌지만, 메인테이너와 보안팀은 무의미한 리포트까지 검토해야 하는 상황이 됨
  - 김태범 크리밋 최고기술책임자는 이걸 ‘인공지능 쓰레기’ 부작용이라고 짚었음

- 예전에는 취약점 발견 자체가 병목이었다면, 지금은 치명적인 1퍼센트를 가려내는 판단이 병목임
  - 인공지능은 후보를 뽑아낼 수 있지만, 그 후보가 실제로 재현되는지, 영향 범위가 어디까지인지, 책임은 누가 져야 하는지는 자동으로 해결되지 않음
  - 특히 존재하지 않는 가짜 개념증명 코드까지 만들어내는 환각 현상이 문제로 언급됨
  - 결국 ‘찾았다’가 아니라 ‘검증했고, 설명 가능하고, 조치할 가치가 있다’까지 가야 보안 리포트가 됨

> [!WARNING]
> 인공지능이 만든 취약점 리포트는 양이 많다는 이유만으로 가치가 생기지 않음. 재현성 없는 제보가 쌓이면 오픈소스 메인테이너의 시간을 태우는 공격 표면처럼 작동할 수 있음.

- 흥미로운 건 실제 버그바운티 성과를 낸 워크플로우 사례도 같이 나왔다는 점임
  - 고려대 신현서 학생은 자체 인공지능 파이프라인으로 그라파나 같은 유명 오픈소스에서 49건의 버그바운티 보상을 받았다고 공유함
  - 해커원 한국 지역 1위 경험도 언급됐는데, 단순히 모델에 코드를 던진 게 아니라 비용 구조를 꽤 세밀하게 설계한 쪽에 가까움

- 블랙박스와 화이트박스는 인공지능 운영 방식부터 달라야 한다는 설명이 나옴
  - 서비스 주소만 주어지는 블랙박스 모의해킹은 응답을 보면서 다음 행동을 정하는 멀티 에이전트 시스템이 유리함
  - 반대로 코드가 주어지는 오픈소스 화이트박스 분석은 정형화된 워크플로우가 비용과 정확도 면에서 낫다고 봄
  - 이 차이를 무시하고 모든 환경에 ‘에이전트’만 붙이면 멋있어 보일 뿐, 운영비가 튀거나 검증 품질이 흔들릴 수 있음

- 핵심 전처리는 코드 전체를 한 번에 넣는 게 아니라 의미 단위로 쪼개는 ‘청크’ 분할이었음
  - 방대한 오픈소스 코드를 그대로 대규모 언어 모델에 넣으면 컨텍스트 한계와 비용 문제가 바로 터짐
  - 그래서 코드 의미가 유지되는 묶음으로 나누고, 비교적 저렴한 지엘엠 모델로 먼저 가설을 생성함
  - 그다음 걸러진 후보만 고성능 모델로 최종 검증해 비용 대비 탐지 효율을 끌어올렸다는 흐름임

```mermaid
sequenceDiagram
    participant 코드저장소 as 코드 저장소
    participant 청크분할기 as 청크 분할기
    participant 저가모델 as 저가 모델
    participant 고성능모델 as 고성능 모델
    participant 보안검토자 as 보안 검토자
    코드저장소->>청크분할기: 의미 단위로 코드 분할
    청크분할기->>저가모델: 청크별 취약점 가설 생성
    저가모델->>고성능모델: 후보군만 전달
    고성능모델->>보안검토자: 검증된 취약점 후보 제시
    보안검토자->>보안검토자: 재현성·영향 범위·책임 판단
```

- 세미나의 결론은 ‘보안 실무자가 프롬프트 잘 치는 사람’이 아니라 ‘지능형 오케스트레이터’가 돼야 한다는 쪽에 가까움
  - 탐지, 검증, 우선순위화, 책임 경계 판단까지 전체 프로세스를 설계해야 함
  - 서비스 간 정책과 책임이 복잡하게 얽히는 현실에서는 단순 자동 탐지보다 운영 체계가 더 중요해짐
  - 인공지능이 취약점 후보를 찾는 시대일수록, 사람의 역할은 줄어드는 게 아니라 더 고급 판단 쪽으로 이동하는 셈임

---

## 기술 맥락

- 여기서 중요한 선택은 ‘모델을 얼마나 센 걸 쓰느냐’가 아니라 ‘검증 파이프라인을 어떻게 쪼개느냐’예요. 오픈소스 코드 전체를 고성능 모델에 넣으면 비용도 크고 컨텍스트도 쉽게 넘치기 때문에, 먼저 청크로 나누고 싼 모델로 후보를 줄이는 방식이 현실적이에요.

- 멀티 에이전트 시스템과 워크플로우를 구분한 것도 실무적으로 의미가 있어요. 블랙박스 환경은 응답을 보고 다음 행동을 바꿔야 하니까 에이전트가 유리하지만, 코드가 이미 있는 화이트박스 환경은 반복 가능한 절차가 더 싸고 안정적이거든요.

- 보안팀이 마지막에 봐야 하는 건 모델 점수가 아니라 재현성과 영향 범위예요. 인공지능이 만든 개념증명 코드가 환각이면 리포트 자체가 쓰레기가 되기 때문에, 최종 검증 단계를 사람과 고성능 모델 쪽에 남겨둔 구조가 핵심이에요.

- 이 흐름은 버그바운티뿐 아니라 일반 개발팀의 보안 운영에도 바로 연결돼요. 앞으로 외부 제보가 늘어날수록 ‘제보 접수량’보다 ‘걸러내는 체계’가 조직의 보안 체력을 좌우하게 될 가능성이 커요.

## 핵심 포인트

- 인공지능 도구 덕분에 취약점 후보를 찾는 비용은 크게 낮아졌지만, 가짜 개념증명 코드와 무의미한 리포트도 같이 늘었다
- 고려대 신현서 학생은 그라파나 등 오픈소스 분석으로 49건의 버그바운티 보상을 받은 워크플로우를 공유했다
- 오픈소스 화이트박스 분석에서는 자율형 멀티 에이전트보다 정형화된 워크플로우가 비용과 정확도 면에서 유리하다는 주장이 나왔다

## 인사이트

보안에서 인공지능의 가치는 ‘더 많이 찾기’보다 ‘검증 가능한 후보만 남기기’로 옮겨가는 중이다. 개발팀 입장에서도 앞으로 취약점 리포트를 받을 때 모델 출력물이 아니라 재현성, 영향 범위, 책임 경계까지 보는 체계가 더 중요해질 듯하다.