---
title: "오픈 모델 안전장치, 이제 10분이면 풀린다는 경고가 나옴"
published: 2026-05-25T23:05:03.013Z
canonical: https://jeff.news/article/3241
---
# 오픈 모델 안전장치, 이제 10분이면 풀린다는 경고가 나옴

메타 Llama와 구글 Gemma 같은 공개형 AI 모델에서 안전장치를 제거한 변형 모델이 빠르게 퍼지고 있다는 보도야. FT와 AI 안전성 단체 앨리스 실험에 따르면 GitHub에 공개된 도구만으로도 일반 사용자 수준에서 Llama 3.3의 제한을 10분 안에 약화할 수 있었다고 해.

- 메타와 구글의 공개형 AI 모델에서 안전장치를 제거한 변형 모델이 빠르게 퍼지고 있다는 경고가 나옴
  - FT가 AI 안전성 단체 앨리스와 실험한 결과, GitHub에 공개된 ‘Heretic’ 도구로 Llama 3.3의 안전장치를 10분도 안 돼 약화할 수 있었다고 보도됨
  - 변형된 Gemma 3 모델은 원래 거부해야 할 위험한 요청에도 응답한 사례가 확인됐다고 함

- 문제는 이게 더 이상 고급 연구자만 가능한 작업이 아니라는 점임
  - 시카고대 카윈 에타야라지 교수는 예전엔 전문성과 집요함이 필요했지만, 지금은 일반 사용자도 훨씬 쉽게 접근할 수 있게 됐다고 봄
  - 핵심 기법으로 거론되는 건 ‘어블리터레이션(abliteration)’인데, 모델 내부의 안전 거부 성향을 제거하거나 약화하는 방식임

> [!IMPORTANT]
> FT 보도 기준으로 ‘검열 해제’ 모델은 3500개 이상 만들어졌고, 다운로드 수는 1300만회를 넘었다고 함. 이 정도면 단순한 연구실 이슈가 아니라 배포 생태계 이슈임.

- 폐쇄형 모델과 공개형 모델의 차이가 여기서 확 갈림
  - ChatGPT나 Claude 같은 폐쇄형 모델은 내부 코드와 가중치 접근이 제한돼 있어 서비스 제공자가 통제할 여지가 큼
  - 반면 Llama나 Gemma 같은 공개형 모델은 내려받아 수정할 수 있으니, 원 개발사가 만든 가드레일이 복제 이후에도 유지된다고 보기 어려움

- 규제 측면에서도 골치 아픈 포인트가 있음
  - AI 기업들은 위험 답변을 막기 위해 큰 비용을 들여 가드레일을 만들지만, 모델이 인터넷에서 복제·수정되면 통제권이 급격히 약해짐
  - 앨리스 공동창업자 노엄 슈워츠는 예전엔 공상과학 같던 일이 더 이상 공상과학이 아니라고 경고함

- 그렇다고 무조건 유해 데이터를 다 지우는 게 답도 아니라는 반론도 있음
  - 에타야라지 교수는 위험 데이터를 완전히 제거하면 모델이 악성 사용 여부를 판단하지 못하는 ‘순진한 모델’이 될 수 있다고 지적함
  - 구글은 어블리터레이션이 모든 공개형 모델이 직면한 기술 과제라며, 출시 전 내부 안전성 검증을 거친다고 설명함
  - GitHub는 불법 공격이나 악성코드 직접 지원 콘텐츠는 금지하지만, 보안 연구 목적 코드는 교육적 가치도 고려한다고 밝힘

---

## 기술 맥락

- 공개형 모델의 핵심 선택은 ‘가중치를 공개해 생태계를 키울 것인가’예요. 연구자와 개발자는 비용을 줄이고 자체 인프라에서 모델을 튜닝할 수 있지만, 같은 이유로 안전장치도 원 개발사 통제 밖에서 바뀔 수 있거든요.

- 폐쇄형 모델은 API 뒤에서 정책을 강제할 수 있어서 운영 통제가 쉬워요. 대신 비용, 지연시간, 데이터 반출 이슈가 생기고, 사용자는 모델 내부를 검증하기 어렵다는 trade-off가 있어요.

- 이번 이슈가 중요한 이유는 공격자가 모델을 ‘프롬프트로 속이는’ 수준을 넘어, 모델 자체의 거부 성향을 약화하는 방향으로 가고 있기 때문이에요. 서비스에 오픈 모델을 붙이는 팀은 모델 선택만이 아니라 실행 환경, 출력 필터, 감사 로그, abuse 대응까지 같이 설계해야 해요.

## 핵심 포인트

- GitHub 도구 ‘Heretic’으로 Llama 3.3 안전장치 제거가 10분 안에 가능했다는 실험 결과가 나옴
- 검열 해제 모델은 3500개 이상 만들어졌고 다운로드 수는 1300만회를 넘었다고 보도됨
- 공개형 모델은 다운로드 후 수정이 가능해 원 개발사의 가드레일 통제가 어렵다는 점이 핵심 리스크

## 인사이트

오픈 모델 생태계의 장점이 그대로 보안 운영의 난점이 되고 있음. 한국 개발팀도 오픈 모델을 제품에 붙일 때 ‘모델 자체가 안전하다’가 아니라 배포·로깅·정책·차단 계층까지 같이 봐야 할 타이밍이야.