---
title: "안전장치 풀린 오픈소스 AI 모델, 다운로드 1300만 건까지 갔다"
published: 2026-05-26T07:05:03.013Z
canonical: https://jeff.news/article/3238
---
# 안전장치 풀린 오픈소스 AI 모델, 다운로드 1300만 건까지 갔다

메타와 구글의 오픈 모델에서 안전장치를 제거하는 도구가 퍼지면서, 위험한 답변을 내놓는 변형 모델이 대량 유통되고 있다는 보도다. 깃허브 도구로 라마 3.3의 가드레일을 10분 안에 제거했고, 관련 검열 해제 모델 다운로드는 1300만 건에 달했다. 오픈소스 AI의 성능이 폐쇄형 모델을 빠르게 따라잡는 상황에서, 안전 통제를 어디까지 믿을 수 있느냐가 핵심 쟁점으로 떠올랐다.

- 오픈소스 AI 모델의 안전장치를 푸는 도구가 온라인에서 빠르게 퍼지고 있음
  - 메타, 구글 같은 빅테크가 공개한 모델을 대상으로 함
  - 안전장치가 제거된 변형 모델은 원래라면 거부해야 할 위험한 요청에도 답변함

- 파이낸셜타임스와 AI 안전성 단체 앨리스 테스트에서 꽤 센 사례가 나옴
  - 안전장치가 제거된 구글 젬마 3는 염소가스를 밀폐 공간에 살포하는 방법을 생성함
  - 신용카드 정보를 훔치는 악성코드 작성법에도 답함
  - 아동 성학대 묘사 이야기까지 생성한 것으로 알려짐

> [!WARNING]
> 이건 단순한 프롬프트 탈옥 얘기가 아님. 모델을 내려받아 안전장치 자체를 제거한 뒤 다시 배포할 수 있다는 게 핵심임.

- 메타 라마 3.3의 안전장치는 10분도 안 걸려 풀렸다고 함
  - FT는 깃허브에 공개된 헤레틱이라는 도구를 사용함
  - 별도 고성능 장비나 전문 지식 없이도 가능했다는 게 더 찝찝한 포인트
  - 제거된 모델은 특정 체중 기준 치사율 50%에 도달하는 리신 독소 투여량 같은 질문에도 답한 것으로 전해짐

- 이 문제는 오픈 모델이 좋아질수록 더 커짐
  - 예전에는 안전장치 제거에 꽤 높은 전문성과 끈기가 필요했음
  - 시카고대 카윈 에타야라지 교수는 이제 일반 사용자도 쉽게 할 수 있는 수준이 됐다고 봄
  - 오픈소스 AI가 폐쇄형 최첨단 모델과의 성능 격차를 줄이면서, 위험한 변형 모델의 성능도 같이 올라가는 구조임

- 헤레틱 개발자는 이 도구로 만들어진 검열 해제 모델이 이미 3500개를 넘었다고 밝힘
  - 관련 모델 다운로드 수는 1300만 건에 달함
  - 구글 최신 모델 젬마 4도 출시 90분 만에 안전장치를 제거했다고 주장함
  - 개발자는 업계 가드레일이 얼마나 취약한지 보여주기 위해 공개했다고 설명함

> [!IMPORTANT]
> 3500개 모델, 1300만 다운로드라는 숫자는 이 이슈가 연구자 몇 명의 장난감이 아니라는 뜻임. 이미 생태계 단위로 퍼진 문제에 가까움.

- 폐쇄형 모델은 상대적으로 이런 공격이 어렵지만, 완전히 다른 장단점이 있음
  - 챗GPT나 클로드 같은 비공개 모델은 핵심 코드와 가중치에 외부 접근이 막혀 있음
  - 그래서 안전장치 제거가 오픈 모델보다 훨씬 어려움
  - 반대로 오픈 모델은 로컬 실행, 커스터마이징, 비용 통제 면에서 개발자들이 끌릴 수밖에 없음

- AI 기업들도 대응책을 찾고 있지만 정답은 아직 애매함
  - 오픈AI는 gpt-oss 모델에 위험 데이터를 제거한 데이터셋으로 학습하는 방식을 도입함
  - 하지만 전문가들은 유해 데이터를 빼는 것만으로는 부족할 수 있다고 봄
  - 위험 정보를 너무 제거하면 모델이 악의적 사용 자체를 인지하지 못하는 순진한 상태가 될 수 있다는 지적도 나옴

- 깃허브의 입장도 딱 잘라 금지하기 어려운 쪽임
  - 불법 공격이나 악성코드 캠페인을 직접 지원하는 콘텐츠는 금지함
  - 하지만 악성코드 개발에 활용될 수 있는 소스코드 자체는 교육과 보안 연구 가치가 있어 일괄 금지하지 않는다고 설명함
  - 보안 연구와 악용 도구의 경계가 늘 그렇듯 여기서도 제일 골치 아픈 부분임

- 결국 오픈소스 AI의 질문은 성능이 아니라 통제 가능성으로 옮겨가고 있음
  - 기업이 사내에 오픈 모델을 들여올 때 모델 카드나 벤치마크만 보면 부족함
  - 누가 모델을 수정할 수 있는지, 배포된 변형 모델을 어떻게 추적할지, 위험 요청 로깅을 어떻게 할지까지 봐야 함
  - 모델을 공개하는 쪽도 출시 전 평가만으로는 부족하고, 공개 후 변형 생태계를 전제로 안전 전략을 짜야 하는 상황임

---

## 기술 맥락

- 여기서 중요한 선택은 모델을 서비스로만 제공할지, 가중치를 공개해 사용자가 직접 실행하게 할지예요. 오픈 모델은 개발자 생태계를 키우고 비용을 낮추는 데 유리하지만, 공개된 뒤에는 원 제작사가 런타임 정책으로 모든 사용을 막기 어렵거든요.

- 가드레일은 보통 모델이 특정 요청을 거부하도록 학습하거나, 시스템 프롬프트와 필터를 붙이거나, 배포 레이어에서 차단하는 식으로 들어가요. 그런데 가중치를 받은 사용자가 모델 자체를 다시 손보면 서비스 레이어의 통제는 의미가 크게 줄어들어요.

- 기사에서 나온 소멸 기법은 단순히 금지어를 우회하는 수준이 아니라, 모델 안의 거부 행동을 약화시키는 쪽에 가까워요. 그래서 한 번 변형 모델이 만들어져 공유되면 원 제작사가 나중에 정책을 바꿔도 이미 퍼진 파일을 회수하기가 어렵죠.

- 유해 데이터를 빼고 학습시키는 방식도 만능은 아니에요. 모델이 위험한 내용을 아예 모르면 악의적 요청을 판별하는 능력까지 약해질 수 있어서, 안전 학습에서는 무엇을 숨길지와 무엇을 인식하게 할지 사이의 균형이 중요해요.

## 핵심 포인트

- 헤레틱이라는 도구로 메타 라마 3.3의 안전장치를 10분 안에 제거했다
- 안전장치가 제거된 젬마 3 변형 모델은 생물무기, 악성코드, 아동 성학대 묘사 같은 위험 요청에도 답했다
- 검열 해제 모델은 3500개 이상 만들어졌고 다운로드 수는 1300만 건에 달했다
- 전문가들은 유해 데이터 제거만으로는 모델이 안전해지지 않는다고 경고했다

## 인사이트

오픈 모델의 장점은 누구나 고치고 배포할 수 있다는 건데, 바로 그 지점이 안전 문제에서는 정면으로 돌아온다. 한국 개발자 입장에서도 사내 모델 도입이나 오픈 모델 파인튜닝을 검토할 때, 모델 성능만 볼 게 아니라 배포 후 통제 가능성까지 같이 봐야 하는 뉴스다.