---
title: "LLM 안전장치를 ‘배려 모드’로 우회하려는 새 탈옥 패턴"
published: 2026-05-01T16:59:35.000Z
canonical: https://jeff.news/article/2143
---
# LLM 안전장치를 ‘배려 모드’로 우회하려는 새 탈옥 패턴

성소수자 정체성이나 말투를 프롬프트에 섞어 대규모 언어 모델(LLM)의 거절 정책을 흔드는 탈옥 기법이 공유됐다. 핵심은 모델의 안전장치가 차별적으로 보이지 않으려는 방향으로 튜닝된 점을 악용해, 금지된 요청을 정체성 표현이나 역할극으로 포장하는 방식이다. 실제 악성 요청 예시는 재현하지 않는 게 맞고, 방어 관점에서는 정책 우회 프레이밍 자체를 탐지해야 한다.

- 새로 공유된 LLM 탈옥 기법의 포인트는 ‘정체성 프레이밍’으로 안전장치를 흔드는 것임
  - 공격자는 금지된 요청을 그대로 던지는 대신, 특정 정체성이나 말투를 흉내 내는 역할극으로 감싸서 모델이 거절을 망설이게 만든다고 주장함
  - 글에서는 GPT-4o에서 처음 발견했고, 이후 여러 최신 모델에서도 예시를 추가했다고 적고 있음

- 흥미로운 부분은 이 기법이 모델의 ‘친절함’을 공격면으로 본다는 점임
  - 모델은 차별적이거나 무례하게 보이는 답변을 피하도록 튜닝돼 있음
  - 공격자는 그 성향을 역이용해, 위험한 요청을 거절하면 특정 집단을 무시하는 것처럼 보이게 만드는 식으로 프레이밍함
  - 말하자면 안전장치로 안전장치를 때리는 구조라 꽤 골치 아픔

> [!WARNING]
> 이 글의 원문은 악성 코드와 불법 행위 요청을 우회하려는 예시를 포함하고 있음. 방어 연구나 정책 설계 관점에서만 다뤄야 하고, 실제 프롬프트 재현은 하면 안 됨.

- 저자는 안전 튜닝이 더 강해질수록 이 공격이 더 세질 수 있다고 주장함
  - 이유는 모델이 취약한 커뮤니티나 사회적 정체성 맥락에서 더 조심스럽고 더 협조적으로 반응하도록 설계되기 때문임
  - 이 주장이 항상 맞는지는 별개지만, 안전 정책이 단순 키워드 차단만으로는 부족하다는 문제의식은 꽤 현실적임

- 방어 쪽에서 봐야 할 핵심은 ‘표현’이 아니라 ‘의도’임
  - 금지된 요청이 정중한 말투, 농담, 역할극, 번역 요청, 문체 변환 요청으로 들어와도 목적이 같으면 같은 위험으로 처리해야 함
  - 특히 악성 코드, 약물 제조, 개인정보 탈취 같은 범주는 정체성 표현과 섞여도 별도 안전 판단을 유지해야 함

---
## 기술 맥락

- 이 사례에서 중요한 건 LLM이 단어 하나를 보고 막는 게 아니라, 요청의 의도를 추론해야 한다는 점이에요. 공격자는 위험한 요청을 직접 말하지 않고 사회적 맥락으로 감싸기 때문에, 키워드 필터만으로는 쉽게 빠져나가거든요.

- 모델 안전 정책은 보통 유용함, 무해함, 공정성을 동시에 맞추려고 해요. 그런데 이 셋이 충돌하는 상황을 공격자가 만들면 모델은 ‘거절하면 무례한가?’ 같은 방향으로 흔들릴 수 있어요.

- 방어 구현에서는 프롬프트의 표면 문체보다 최종 산출물이 무엇인지 보는 레이어가 필요해요. 역할극이나 번역 요청이라도 결과가 악성 코드, 불법 제조법, 탈취 절차라면 같은 정책으로 막아야 하니까요.

## 핵심 포인트

- 정체성 기반 역할극으로 모델의 거절 정책을 흔드는 프롬프트 인젝션 사례
- 안전 튜닝이 강할수록 특정 사회적 맥락에서 과잉 순응이 생길 수 있다는 주장
- 악성 코드나 불법 제조 요청을 우회하려는 용도로 제시돼 방어 관점에서만 봐야 할 내용
- 단어 필터보다 요청 의도와 변형된 프레이밍을 함께 봐야 함

## 인사이트

이건 ‘특정 표현을 막자’가 아니라, 모델이 사회적 맥락을 핑계로 위험 의도를 놓치지 않게 만드는 문제에 가깝다. 안전 정책이 친절함과 거절 사이에서 흔들릴 때 어떤 공격면이 생기는지 보여주는 사례다.