안전장치 풀린 오픈소스 AI 모델, 다운로드 1300만 건까지 갔다

ai-ml 2026-05-26 약 6분

 tags

#open-source #llm #ai-safety #guardrails #gemma

vote

북마크

메타와 구글의 오픈 모델에서 안전장치를 제거하는 도구가 퍼지면서, 위험한 답변을 내놓는 변형 모델이 대량 유통되고 있다는 보도다. 깃허브 도구로 라마 3.3의 가드레일을 10분 안에 제거했고, 관련 검열 해제 모델 다운로드는 1300만 건에 달했다. 오픈소스 AI의 성능이 폐쇄형 모델을 빠르게 따라잡는 상황에서, 안전 통제를 어디까지 믿을 수 있느냐가 핵심 쟁점으로 떠올랐다.

1
헤레틱이라는 도구로 메타 라마 3.3의 안전장치를 10분 안에 제거했다
2
안전장치가 제거된 젬마 3 변형 모델은 생물무기, 악성코드, 아동 성학대 묘사 같은 위험 요청에도 답했다
3
검열 해제 모델은 3500개 이상 만들어졌고 다운로드 수는 1300만 건에 달했다
4
전문가들은 유해 데이터 제거만으로는 모델이 안전해지지 않는다고 경고했다

오픈소스 AI 모델의 안전장치를 푸는 도구가 온라인에서 빠르게 퍼지고 있음
- 메타, 구글 같은 빅테크가 공개한 모델을 대상으로 함
- 안전장치가 제거된 변형 모델은 원래라면 거부해야 할 위험한 요청에도 답변함
파이낸셜타임스와 AI 안전성 단체 앨리스 테스트에서 꽤 센 사례가 나옴
- 안전장치가 제거된 구글 젬마 3는 염소가스를 밀폐 공간에 살포하는 방법을 생성함
- 신용카드 정보를 훔치는 악성코드 작성법에도 답함
- 아동 성학대 묘사 이야기까지 생성한 것으로 알려짐

⚠️주의

> 이건 단순한 프롬프트 탈옥 얘기가 아님. 모델을 내려받아 안전장치 자체를 제거한 뒤 다시 배포할 수 있다는 게 핵심임.

메타 라마 3.3의 안전장치는 10분도 안 걸려 풀렸다고 함
- FT는 깃허브에 공개된 헤레틱이라는 도구를 사용함
- 별도 고성능 장비나 전문 지식 없이도 가능했다는 게 더 찝찝한 포인트
- 제거된 모델은 특정 체중 기준 치사율 50%에 도달하는 리신 독소 투여량 같은 질문에도 답한 것으로 전해짐
이 문제는 오픈 모델이 좋아질수록 더 커짐
- 예전에는 안전장치 제거에 꽤 높은 전문성과 끈기가 필요했음
- 시카고대 카윈 에타야라지 교수는 이제 일반 사용자도 쉽게 할 수 있는 수준이 됐다고 봄
- 오픈소스 AI가 폐쇄형 최첨단 모델과의 성능 격차를 줄이면서, 위험한 변형 모델의 성능도 같이 올라가는 구조임
헤레틱 개발자는 이 도구로 만들어진 검열 해제 모델이 이미 3500개를 넘었다고 밝힘
- 관련 모델 다운로드 수는 1300만 건에 달함
- 구글 최신 모델 젬마 4도 출시 90분 만에 안전장치를 제거했다고 주장함
- 개발자는 업계 가드레일이 얼마나 취약한지 보여주기 위해 공개했다고 설명함

❗중요

> 3500개 모델, 1300만 다운로드라는 숫자는 이 이슈가 연구자 몇 명의 장난감이 아니라는 뜻임. 이미 생태계 단위로 퍼진 문제에 가까움.

폐쇄형 모델은 상대적으로 이런 공격이 어렵지만, 완전히 다른 장단점이 있음
- 챗GPT나 클로드 같은 비공개 모델은 핵심 코드와 가중치에 외부 접근이 막혀 있음
- 그래서 안전장치 제거가 오픈 모델보다 훨씬 어려움
- 반대로 오픈 모델은 로컬 실행, 커스터마이징, 비용 통제 면에서 개발자들이 끌릴 수밖에 없음
AI 기업들도 대응책을 찾고 있지만 정답은 아직 애매함
- 오픈AI는 gpt-oss 모델에 위험 데이터를 제거한 데이터셋으로 학습하는 방식을 도입함
- 하지만 전문가들은 유해 데이터를 빼는 것만으로는 부족할 수 있다고 봄
- 위험 정보를 너무 제거하면 모델이 악의적 사용 자체를 인지하지 못하는 순진한 상태가 될 수 있다는 지적도 나옴
깃허브의 입장도 딱 잘라 금지하기 어려운 쪽임
- 불법 공격이나 악성코드 캠페인을 직접 지원하는 콘텐츠는 금지함
- 하지만 악성코드 개발에 활용될 수 있는 소스코드 자체는 교육과 보안 연구 가치가 있어 일괄 금지하지 않는다고 설명함
- 보안 연구와 악용 도구의 경계가 늘 그렇듯 여기서도 제일 골치 아픈 부분임
결국 오픈소스 AI의 질문은 성능이 아니라 통제 가능성으로 옮겨가고 있음
- 기업이 사내에 오픈 모델을 들여올 때 모델 카드나 벤치마크만 보면 부족함
- 누가 모델을 수정할 수 있는지, 배포된 변형 모델을 어떻게 추적할지, 위험 요청 로깅을 어떻게 할지까지 봐야 함
- 모델을 공개하는 쪽도 출시 전 평가만으로는 부족하고, 공개 후 변형 생태계를 전제로 안전 전략을 짜야 하는 상황임

기술 맥락

여기서 중요한 선택은 모델을 서비스로만 제공할지, 가중치를 공개해 사용자가 직접 실행하게 할지예요. 오픈 모델은 개발자 생태계를 키우고 비용을 낮추는 데 유리하지만, 공개된 뒤에는 원 제작사가 런타임 정책으로 모든 사용을 막기 어렵거든요.
가드레일은 보통 모델이 특정 요청을 거부하도록 학습하거나, 시스템 프롬프트와 필터를 붙이거나, 배포 레이어에서 차단하는 식으로 들어가요. 그런데 가중치를 받은 사용자가 모델 자체를 다시 손보면 서비스 레이어의 통제는 의미가 크게 줄어들어요.
기사에서 나온 소멸 기법은 단순히 금지어를 우회하는 수준이 아니라, 모델 안의 거부 행동을 약화시키는 쪽에 가까워요. 그래서 한 번 변형 모델이 만들어져 공유되면 원 제작사가 나중에 정책을 바꿔도 이미 퍼진 파일을 회수하기가 어렵죠.
유해 데이터를 빼고 학습시키는 방식도 만능은 아니에요. 모델이 위험한 내용을 아예 모르면 악의적 요청을 판별하는 능력까지 약해질 수 있어서, 안전 학습에서는 무엇을 숨길지와 무엇을 인식하게 할지 사이의 균형이 중요해요.

오픈 모델의 장점은 누구나 고치고 배포할 수 있다는 건데, 바로 그 지점이 안전 문제에서는 정면으로 돌아온다. 한국 개발자 입장에서도 사내 모델 도입이나 오픈 모델 파인튜닝을 검토할 때, 모델 성능만 볼 게 아니라 배포 후 통제 가능성까지 같이 봐야 하는 뉴스다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

안전장치 풀린 오픈소스 AI 모델, 다운로드 1300만 건까지 갔다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

안전장치 풀린 오픈소스 AI 모델, 다운로드 1300만 건까지 갔다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사