---
title: "고려대 AI보안연구소 출범 — 적대적 공격부터 에이전트 보안까지, K-보안의 새 거점"
published: 2026-04-04T08:05:01.594Z
canonical: https://jeff.news/article/1513
---
# 고려대 AI보안연구소 출범 — 적대적 공격부터 에이전트 보안까지, K-보안의 새 거점

고려대가 AI보안연구소(AISRI)를 출범시켰음. 적대적 공격, 모델 복제, 백도어, 탈옥 등 4축 연구 매트릭스를 제시했고, 금융보안원 AI 레드티밍 수요가 전년 대비 5배 급증한 상황에서 산학연 허브 역할을 목표로 함.

## 고려대 AI보안연구소 출범

- 고려대학교가 AI보안연구소(AISRI)를 3일 공식 출범시킴
  - 대학 내 미래융합기술관에서 개소식 진행
  - 연구소장은 이상근 정보보호대학원 교수가 맡음
- 이상근 소장은 서울대 컴퓨터공학 학사, 서울대·위스콘신 매디슨대 석사, 위스콘신 매디슨대 컴퓨터과학 박사 출신
  - 대통령 안보실 자문, 국가정보원 AI 보안 가이드라인 자문 경력
  - 현재 개인정보위원회 '인공지능 프라이버시 민관정책협의회' 위원으로 활동 중

## 핵심 미션: AI 시대의 신뢰

- 이 소장은 "AI 시대 핵심 과제는 신뢰"라고 강조함
- 연구소가 추구하는 두 가지 미션을 제시함
  - 첫째, 신뢰할 수 있는 AI를 만드는 것
  - 둘째, AI로 안전한 사회를 만드는 것
- "K-컬처는 유명하지만 K-보안은 잘 안 떠오른다"면서 AI 신뢰 분야 1등 달성을 촉구함
- 신뢰의 전제조건으로 불확실성과 취약성 문제 해결을 꼽음
  - AI의 목적(개발 의도), 과정(작동 원리), 성능이 먼저 검증돼야 한다고 짚음

## 연구소가 답하려는 4가지 질문

- AI로 더 안전한 사회를 어떻게 만들 것인가
  - AI 해커를 방어하는 AI 개발이 목표
- 공격에 강한 AI를 어떻게 만들 것인가
  - AI 자체에 대한 공격 강인성 확보
- 통제 및 신뢰성을 검증 가능한 AI를 어떻게 만들 것인가
- 산업과 사회가 신뢰할 수 있는 AI 생태계를 어떻게 만들 것인가

## 조직 구성과 연구 영역

- 고려대 정보보호대학원(2001년 설립, 25년 역사) 산하에 설치됨
  - 전임교수 18명, 재학생 500명 이상, 부설센터·연구실 10개 이상 보유
- AISRI는 3개 센터 + 1개 연구단으로 구성됨
  - AI기술 보안 연구센터
  - AI기반 보안 연구센터
  - AI보안 시험평가센터
  - 산업특화 AI보안 연구단
- 설립 멤버 8명이 참여함
  - 정익래 대학원장(블록체인·ZKP), 김휘강 교수(자동차 보안·CTI), 이중희 교수(공급망 보안·AI HW 트로이목마) 등

## 연구 매트릭스

- 전략 4축: 적대적 공격, 모델 복제, 백도어, 탈옥
- 기술 프런티어: 초거대 모델 안정성, 자율 에이전트 보안 및 통제
- 공격 지형: AI 에이전트 보안 취약점, 오펜시브 보안, AI 해커, AI 사이버전
- 악용 시나리오: 딥페이크, 피싱, 허위정보, 범죄도구

## Trustworthy AI 프레임워크

- 미국 NIST가 정의하는 신뢰할 수 있는 AI의 7가지 특성을 연구 기반으로 삼음
  - Valid & Reliable / Safe / Secure & Resilient
  - Accountable & Transparent / Explainable & Interpretable
  - Privacy-Enhanced / Fair
- AISRI는 '보호-검증-확산'을 연결하는 허브를 지향함
  - 리서치, 어슈어런스, 생태계 조성에 주력

## 금융 분야 AI 보안 동향

- 금융보안원의 AI 레드티밍 수요가 전년 대비 5배 이상 급증함
- 이달 중 '금융분야 AI 보안 실무안내서' 배포 예정
- 하반기에 AI 레드팀 조직을 대폭 확대할 계획임

---

## 기술 맥락

- **AI 레드티밍(Red Teaming)**이 요즘 보안 업계에서 엄청 핫한 키워드거든요. 원래 군사 용어인데, AI 맥락에서는 모델이 위험한 출력을 내는지, 보안 우회가 가능한지를 공격자 관점에서 의도적으로 테스트하는 걸 뜻해요. 금융권에서 수요가 5배 급증했다는 건 그만큼 AI 도입 속도가 빨라졌다는 뜻이기도 해요.
- **적대적 공격(Adversarial Attack)**은 AI 모델을 속이기 위해 입력 데이터를 의도적으로 조작하는 기법이에요. 예를 들어 이미지에 사람 눈에는 안 보이는 노이즈를 넣어서 AI가 완전히 다른 걸로 인식하게 만드는 거예요. 자율주행이나 보안 카메라 같은 데서는 치명적이라서 방어 연구가 굉장히 활발해요.
- **Trustworthy AI**는 미국 NIST가 7가지 특성으로 정의한 프레임워크인데요, 단순히 '잘 작동하는 AI'가 아니라 '왜 그런 결정을 내렸는지 설명할 수 있고, 공격에도 버틸 수 있는 AI'를 목표로 해요. 이번 연구소가 이걸 기반 프레임워크로 삼은 건 국제 표준과 보조를 맞추겠다는 의미예요.
- **탈옥(Jailbreak)**은 AI 모델의 안전 장치를 우회해서 의도하지 않은 출력을 끌어내는 기법이에요. 프롬프트를 교묘하게 조작해서 가드레일을 무력화시키는 건데, 최근 LLM이 널리 쓰이면서 탈옥 기법도 점점 정교해지고 있어서 연구소가 핵심 연구 축으로 잡은 거예요.

## 핵심 포인트

- AI 에이전트 시대에 '신뢰'가 핵심 과제로 부상
- NIST Trustworthy AI 7대 특성 기반 연구 프레임워크 수립
- 금융보안원 AI 레드티밍 수요 전년 대비 5배 이상 급증
- 적대적 공격·모델 복제·백도어·탈옥 4축 연구 매트릭스

## 인사이트

에이전틱 AI가 확산되면서 'AI를 공격하는 AI'와 'AI를 방어하는 AI'의 군비경쟁이 현실화되고 있음. 한국에서 이 분야 전문 연구 거점이 생긴 건 타이밍이 적절함.