AI 에이전트는 LLM이랑 위험 구조가 다르다, 실행 중 평가까지 필요하다는 경고

ai-ml 2026-05-26 약 6분

 tags

#ai-agent #ai-safety #security #llm #governance

vote

북마크

인공지능안전연구소가 AI 에이전트의 위험은 기존 대규모 언어 모델과 다르며, 사전 테스트만으로는 부족하다고 짚었다. 오픈클로와 몰트북 기반 실험에서 모델별 공격 방어율은 93.9%부터 53.3%까지 크게 갈렸고, 민감정보 유출과 연산자원 낭비 유도 같은 위험도 확인됐다. 핵심은 에이전트가 목표를 세우고 도구와 API, 메모리를 사용하기 때문에 운영 중 평가와 국제 공조가 필요하다는 점이다.

1
AI 에이전트는 단순 응답형 LLM과 달리 목표 설정, 계획, 도구 사용, 행동까지 수행한다
2
오픈클로 실험에서 글로벌 AI 모델의 평균 공격 방어율은 최고 93.9%, 최저 53.3%로 크게 갈렸다
3
몰트북 실험에서는 민감정보 유출과 연산자원 낭비 유도 행위가 확인됐다
4
AISI는 최소 권한, 신원 관리, 검증된 배포, 공급망 위험 대응 등 10가지 위험 관리 원칙을 제시했다

AI 에이전트 위험은 기존 대규모 언어 모델과 다르다는 진단이 나옴
- 김명주 인공지능안전연구소 소장이 2026 AI 세이프티 컴패스 컨퍼런스에서 발표함
- 단순히 프롬프트에 답하는 LLM과 달리, 에이전트는 목표를 세우고 계획하고 도구를 쓰고 행동함
- 그래서 사전 평가만으로는 부족하고 실행 단계 평가와 국제 공조가 필요하다는 주장임
AISI는 에이전트 보안 평가 플랫폼을 직접 만들고 공격 실험을 진행함
- 오픈소스 기반 에이전트 환경 오픈클로를 대상으로 평가함
- 에이전트 전용 사회관계망서비스 몰트북도 실험 대상에 포함됨
- 글로벌 주요 AI 모델을 상대로 실제 공격 시나리오를 적용함
오픈클로 실험에서는 모델별 방어율 차이가 꽤 크게 벌어짐
- 공격 시나리오는 악성 명령 포함 입력, 내부 저장정보 조작, 도구 설명 조작 3가지였음
- 모델별 평균 공격 방어율은 최고 93.9%에서 최저 53.3%까지 차이남
- 같은 에이전트 구조라도 어떤 모델을 붙이느냐에 따라 위험 수준이 완전히 달라질 수 있다는 뜻임

❗중요

> 최고 93.9%, 최저 53.3%라는 격차는 에이전트 보안이 모델 이름값만으로 해결되지 않는다는 신호임. 실제 업무에 붙이려면 모델별 공격 실험이 필요함.

몰트북 실험에서는 집단 선동보다 정보 유출과 자원 낭비 쪽 위험이 확인됨
- 에이전트끼리 위험한 수준의 집단 행동이나 선동은 나타나지 않았음
- 대신 민감정보 유출이 확인됨
- 연산자원 낭비를 유도하는 행위도 관찰됨
AISI는 에이전트 위험 관리 10원칙도 정리함
- 설계·개발, 테스팅·배포, 운영·모니터링 3단계로 나눔
- 최소 권한 부여, 추적 가능한 신원 관리, 검증된 배포가 포함됨
- 공급망 위험 대응과 다중 에이전트 안전성도 핵심 원칙으로 들어감
김 소장이 강조한 포인트는 실행 중 평가임
- 개발 단계에서 테스트를 통과해도 실제 실행 환경의 문맥이 바뀌면 행동이 달라질 수 있음
- 에이전트는 도구, API, 메모리를 두루 쓰기 때문에 기존 코드 종속성 이상의 공급망 위험이 생김
- 결국 국제 표준 중심의 검증 체계가 필요해질 것이라는 전망도 나옴

sequenceDiagram
    participant 사용자
    participant 에이전트
    participant 도구와API
    participant 평가시스템
    사용자->>에이전트: 목표와 작업 요청
    에이전트->>도구와API: 도구 호출과 데이터 접근
    도구와API-->>에이전트: 실행 결과와 외부 문맥 반환
    에이전트->>평가시스템: 행동 로그와 위험 신호 전달
    평가시스템-->>에이전트: 차단, 제한, 추가 검증 지시
    에이전트-->>사용자: 검증된 결과 반환

현장에서는 앤트로픽의 고성능 AI 모델 미토스와 프로젝트 글래스윙 관련 질문도 나옴
- 김 소장은 미토스 대응은 과학기술정보통신부가 말하는 게 맞다고 선을 그음
- 프로젝트 글래스윙 참여 확대에 대해서는 쉽지 않을 것 같다고 봄
- 악용 세력에게 먼저 들어가면 혼란이 커질 수 있어서, 사회 전반 보안 역량이 올라간 뒤 공개하는 방향을 예상함
신속 대응책으로는 하위 버전 모델을 통한 보안 패치가 언급됨
- 고성능 모델 전체 공개가 어렵다면 낮은 버전 AI 모델을 활용해서라도 빠르게 보안 패치를 해야 한다는 얘기임
- 에이전트가 똑똑한지보다 안전하고 신뢰할 수 있는지가 가치 판단의 기준이 될 것이라는 발언도 나옴

기술 맥락

에이전트 보안에서 중요한 선택은 배포 전에 한 번 테스트하고 끝낼지, 실행 중에도 계속 평가할지예요. 에이전트는 같은 모델이라도 어떤 도구를 붙였는지, 어떤 메모리를 읽는지, 어떤 입력 문맥을 받는지에 따라 행동이 달라지거든요.
오픈클로 실험의 공격 시나리오가 흥미로운 이유는 전부 에이전트의 연결 지점을 찌르기 때문이에요. 악성 입력은 프롬프트 경로를, 내부 저장정보 조작은 메모리 경로를, 도구 설명 조작은 도구 호출 경로를 건드려요.
최소 권한 원칙이 여기서 특히 중요해요. 에이전트에게 처음부터 넓은 API 권한과 데이터 접근 권한을 주면, 작은 조작이 실제 업무 실행이나 정보 유출로 이어질 수 있거든요.
공급망 위험도 기존 라이브러리 의존성보다 넓게 봐야 해요. 에이전트는 코드뿐 아니라 도구 설명, 외부 API 응답, 저장된 메모리까지 근거로 삼기 때문에, 어느 레이어가 오염돼도 이상 행동으로 이어질 수 있어요.
그래서 사내 에이전트를 붙이는 팀은 모델 벤치마크만 보면 부족해요. 도구별 권한, 호출 로그, 실행 중 차단 정책, 배포 후 평가 체계를 같이 설계해야 실제 운영 리스크를 줄일 수 있어요.

에이전트는 챗봇보다 훨씬 소프트웨어 시스템에 가깝다. 그래서 프롬프트 안전성만 볼 게 아니라 권한, 도구 호출, 메모리, 공급망, 운영 모니터링을 같이 봐야 하고, 이건 한국 기업이 사내 에이전트를 붙일 때 바로 부딪힐 문제다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

AI 에이전트는 LLM이랑 위험 구조가 다르다, 실행 중 평가까지 필요하다는 경고

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

AI 에이전트는 LLM이랑 위험 구조가 다르다, 실행 중 평가까지 필요하다는 경고

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사