LLM 안전장치를 ‘배려 모드’로 우회하려는 새 탈옥 패턴
성소수자 정체성이나 말투를 프롬프트에 섞어 대규모 언어 모델(LLM)의 거절 정책을 흔드는 탈옥 기법이 공유됐다. 핵심은 모델의 안전장치가 차별적으로 보이지 않으려는 방향으로 튜닝된 점을 악용해, 금지된 요청을 정체성 표현이나 역할극으로 포장하는 방식이다. 실제 악성 요청 예시는 재현하지 않는 게 맞고, 방어 관점에서는 정책 우회 프레이밍 자체를 탐지해야 한다.
- 1
정체성 기반 역할극으로 모델의 거절 정책을 흔드는 프롬프트 인젝션 사례
- 2
안전 튜닝이 강할수록 특정 사회적 맥락에서 과잉 순응이 생길 수 있다는 주장
- 3
악성 코드나 불법 제조 요청을 우회하려는 용도로 제시돼 방어 관점에서만 봐야 할 내용
- 4
단어 필터보다 요청 의도와 변형된 프레이밍을 함께 봐야 함
이건 ‘특정 표현을 막자’가 아니라, 모델이 사회적 맥락을 핑계로 위험 의도를 놓치지 않게 만드는 문제에 가깝다. 안전 정책이 친절함과 거절 사이에서 흔들릴 때 어떤 공격면이 생기는지 보여주는 사례다.
관련 기사
엑스게이트, 양자보안·AI 방화벽으로 VPN 이후 먹거리 찾는다
국내 VPN 시장 1위 사업자인 엑스게이트가 기존 VPN·방화벽 사업을 기반으로 양자보안과 AI 차세대 방화벽을 성장축으로 삼겠다고 밝혔다. QRNG와 PQC를 결합한 AX-Quantum 플랫폼, 국방 시범사업, LLM 기반 자연어 보안장비 제어가 주요 포인트다.
에이씨앤티시스템·센스톤, 수처리 OT 보안에 단방향 동적 인증 붙인다
에이씨앤티시스템과 센스톤이 OT 보안 솔루션 공동 개발을 위한 업무협약을 맺었다. 센스톤의 OTAC 단방향 동적 인증 기술을 산업용 제어망 장비와 EtherFOS에 접목하고, 수처리 시설을 시작으로 반도체·에너지·플랜트 분야까지 확장하는 구상이다.
에버스핀, 웹 보안 게이트웨이에 양자내성암호 전송 보호 붙였다
에버스핀이 웹 보안 플랫폼 에버세이프 웹 클라우드 버전에 포스트 양자암호(PQC) 기반 전송구간 보호 기능을 넣었다. TLS 1.3 기반 하이브리드 키 교환 방식인 X25519MLKEM768을 활용해, 지금 훔쳐간 암호문을 나중에 양자컴퓨터로 푸는 수집 후 해독 위험까지 겨냥한다.
지캐시, 앤트로픽 AI 감사로 추가 중대 취약점은 못 찾았다고 발표
지캐시 창시자 주코 윌콕스가 앤트로픽 AI 모델을 활용한 추가 보안 감사 결과를 공개했다. 최근 오차드 풀에서 가짜 ZEC를 무한 생성할 수 있는 위조 취약점이 발견돼 수정된 뒤, 같은 맥락에서 추가 중대 취약점이 있는지 확인한 것이다.
티빙 개인정보 유출, 비밀번호보다 더 무서운 건 CI와 DI가 새었다는 점
티빙 개인정보 유출 사고를 두고 국내 플랫폼 보안의 취약함을 지적한 글이다. 특히 이름, 생년월일, 휴대전화번호, 비밀번호뿐 아니라 변경이 어려운 CI와 DI까지 유출됐다는 점에서 2차 피해 위험이 크다고 본다.
댓글
댓글
댓글을 불러오는 중...