본문으로 건너뛰기
피드

LLM 안전장치를 ‘배려 모드’로 우회하려는 새 탈옥 패턴

security 약 4분
vote
0
댓글
북마크

성소수자 정체성이나 말투를 프롬프트에 섞어 대규모 언어 모델(LLM)의 거절 정책을 흔드는 탈옥 기법이 공유됐다. 핵심은 모델의 안전장치가 차별적으로 보이지 않으려는 방향으로 튜닝된 점을 악용해, 금지된 요청을 정체성 표현이나 역할극으로 포장하는 방식이다. 실제 악성 요청 예시는 재현하지 않는 게 맞고, 방어 관점에서는 정책 우회 프레이밍 자체를 탐지해야 한다.

  • 1

    정체성 기반 역할극으로 모델의 거절 정책을 흔드는 프롬프트 인젝션 사례

  • 2

    안전 튜닝이 강할수록 특정 사회적 맥락에서 과잉 순응이 생길 수 있다는 주장

  • 3

    악성 코드나 불법 제조 요청을 우회하려는 용도로 제시돼 방어 관점에서만 봐야 할 내용

  • 4

    단어 필터보다 요청 의도와 변형된 프레이밍을 함께 봐야 함

  • 새로 공유된 LLM 탈옥 기법의 포인트는 ‘정체성 프레이밍’으로 안전장치를 흔드는 것임

    • 공격자는 금지된 요청을 그대로 던지는 대신, 특정 정체성이나 말투를 흉내 내는 역할극으로 감싸서 모델이 거절을 망설이게 만든다고 주장함
    • 글에서는 GPT-4o에서 처음 발견했고, 이후 여러 최신 모델에서도 예시를 추가했다고 적고 있음
  • 흥미로운 부분은 이 기법이 모델의 ‘친절함’을 공격면으로 본다는 점임

    • 모델은 차별적이거나 무례하게 보이는 답변을 피하도록 튜닝돼 있음
    • 공격자는 그 성향을 역이용해, 위험한 요청을 거절하면 특정 집단을 무시하는 것처럼 보이게 만드는 식으로 프레이밍함
    • 말하자면 안전장치로 안전장치를 때리는 구조라 꽤 골치 아픔

⚠️주의

> 이 글의 원문은 악성 코드와 불법 행위 요청을 우회하려는 예시를 포함하고 있음. 방어 연구나 정책 설계 관점에서만 다뤄야 하고, 실제 프롬프트 재현은 하면 안 됨.

  • 저자는 안전 튜닝이 더 강해질수록 이 공격이 더 세질 수 있다고 주장함

    • 이유는 모델이 취약한 커뮤니티나 사회적 정체성 맥락에서 더 조심스럽고 더 협조적으로 반응하도록 설계되기 때문임
    • 이 주장이 항상 맞는지는 별개지만, 안전 정책이 단순 키워드 차단만으로는 부족하다는 문제의식은 꽤 현실적임
  • 방어 쪽에서 봐야 할 핵심은 ‘표현’이 아니라 ‘의도’임

    • 금지된 요청이 정중한 말투, 농담, 역할극, 번역 요청, 문체 변환 요청으로 들어와도 목적이 같으면 같은 위험으로 처리해야 함
    • 특히 악성 코드, 약물 제조, 개인정보 탈취 같은 범주는 정체성 표현과 섞여도 별도 안전 판단을 유지해야 함

기술 맥락

  • 이 사례에서 중요한 건 LLM이 단어 하나를 보고 막는 게 아니라, 요청의 의도를 추론해야 한다는 점이에요. 공격자는 위험한 요청을 직접 말하지 않고 사회적 맥락으로 감싸기 때문에, 키워드 필터만으로는 쉽게 빠져나가거든요.

  • 모델 안전 정책은 보통 유용함, 무해함, 공정성을 동시에 맞추려고 해요. 그런데 이 셋이 충돌하는 상황을 공격자가 만들면 모델은 ‘거절하면 무례한가?’ 같은 방향으로 흔들릴 수 있어요.

  • 방어 구현에서는 프롬프트의 표면 문체보다 최종 산출물이 무엇인지 보는 레이어가 필요해요. 역할극이나 번역 요청이라도 결과가 악성 코드, 불법 제조법, 탈취 절차라면 같은 정책으로 막아야 하니까요.

이건 ‘특정 표현을 막자’가 아니라, 모델이 사회적 맥락을 핑계로 위험 의도를 놓치지 않게 만드는 문제에 가깝다. 안전 정책이 친절함과 거절 사이에서 흔들릴 때 어떤 공격면이 생기는지 보여주는 사례다.

댓글

댓글

댓글을 불러오는 중...

security

엑스게이트, 양자보안·AI 방화벽으로 VPN 이후 먹거리 찾는다

국내 VPN 시장 1위 사업자인 엑스게이트가 기존 VPN·방화벽 사업을 기반으로 양자보안과 AI 차세대 방화벽을 성장축으로 삼겠다고 밝혔다. QRNG와 PQC를 결합한 AX-Quantum 플랫폼, 국방 시범사업, LLM 기반 자연어 보안장비 제어가 주요 포인트다.

security

에이씨앤티시스템·센스톤, 수처리 OT 보안에 단방향 동적 인증 붙인다

에이씨앤티시스템과 센스톤이 OT 보안 솔루션 공동 개발을 위한 업무협약을 맺었다. 센스톤의 OTAC 단방향 동적 인증 기술을 산업용 제어망 장비와 EtherFOS에 접목하고, 수처리 시설을 시작으로 반도체·에너지·플랜트 분야까지 확장하는 구상이다.

security

에버스핀, 웹 보안 게이트웨이에 양자내성암호 전송 보호 붙였다

에버스핀이 웹 보안 플랫폼 에버세이프 웹 클라우드 버전에 포스트 양자암호(PQC) 기반 전송구간 보호 기능을 넣었다. TLS 1.3 기반 하이브리드 키 교환 방식인 X25519MLKEM768을 활용해, 지금 훔쳐간 암호문을 나중에 양자컴퓨터로 푸는 수집 후 해독 위험까지 겨냥한다.

security

지캐시, 앤트로픽 AI 감사로 추가 중대 취약점은 못 찾았다고 발표

지캐시 창시자 주코 윌콕스가 앤트로픽 AI 모델을 활용한 추가 보안 감사 결과를 공개했다. 최근 오차드 풀에서 가짜 ZEC를 무한 생성할 수 있는 위조 취약점이 발견돼 수정된 뒤, 같은 맥락에서 추가 중대 취약점이 있는지 확인한 것이다.

security

티빙 개인정보 유출, 비밀번호보다 더 무서운 건 CI와 DI가 새었다는 점

티빙 개인정보 유출 사고를 두고 국내 플랫폼 보안의 취약함을 지적한 글이다. 특히 이름, 생년월일, 휴대전화번호, 비밀번호뿐 아니라 변경이 어려운 CI와 DI까지 유출됐다는 점에서 2차 피해 위험이 크다고 본다.