LLM 안전장치를 ‘배려 모드’로 우회하려는 새 탈옥 패턴
성소수자 정체성이나 말투를 프롬프트에 섞어 대규모 언어 모델(LLM)의 거절 정책을 흔드는 탈옥 기법이 공유됐다. 핵심은 모델의 안전장치가 차별적으로 보이지 않으려는 방향으로 튜닝된 점을 악용해, 금지된 요청을 정체성 표현이나 역할극으로 포장하는 방식이다. 실제 악성 요청 예시는 재현하지 않는 게 맞고, 방어 관점에서는 정책 우회 프레이밍 자체를 탐지해야 한다.
- 1
정체성 기반 역할극으로 모델의 거절 정책을 흔드는 프롬프트 인젝션 사례
- 2
안전 튜닝이 강할수록 특정 사회적 맥락에서 과잉 순응이 생길 수 있다는 주장
- 3
악성 코드나 불법 제조 요청을 우회하려는 용도로 제시돼 방어 관점에서만 봐야 할 내용
- 4
단어 필터보다 요청 의도와 변형된 프레이밍을 함께 봐야 함
이건 ‘특정 표현을 막자’가 아니라, 모델이 사회적 맥락을 핑계로 위험 의도를 놓치지 않게 만드는 문제에 가깝다. 안전 정책이 친절함과 거절 사이에서 흔들릴 때 어떤 공격면이 생기는지 보여주는 사례다.
관련 기사
쿤텍, AI-BOM 넣은 공급망 보안 플랫폼 ‘이지즈 3.0’ 출시
쿤텍이 소프트웨어 공급망 보안 플랫폼 이지즈 3.0을 출시했다. 기존 오픈소스 관리 중심 보안을 넘어, SDLC 전반의 리스크를 SBOM, 저장소 관리, 바이너리 분석으로 통합 관리하는 구조다. 새 기능인 AI-BOM은 AI 모델을 구성하는 데이터, 라이브러리, 모델 구조의 출처와 변경 이력까지 추적하는 데 초점을 둔다.
성인·불법 사이트 차단, 핵심은 클라우드플레어와 인프라 통제
최근 국내 일부 불법 만화 사이트, 해외 도박 사이트, 성인물 사이트 접속 차단이 체감되면서 인터넷 규제 방식 변화가 주목받고 있어. 단순히 사이트 주소를 막는 수준이 아니라 CDN, DNS 같은 인프라 사업자를 통해 우회 접속까지 묶는 방향으로 움직이고 있다는 분석이야.
크라우드스트라이크, 팔콘에 클로드 넣고 클라우드 보안 확장한다
크라우드스트라이크가 팔콘 보안 플랫폼에 앤트로픽의 클로드 오퍼스 4.7을 통합하고, 구글 클라우드와의 협업도 실시간 클라우드 탐지·대응 쪽으로 넓혔다. 기사에는 팔콘 클라우드 보안의 3년 투자수익률 264%, 매출 성장률 21.7%, 목표가 658.97달러 같은 투자 관점 수치도 함께 나온다. 핵심은 보안 플랫폼이 AI 기반 경보 분류와 클라우드 워크로드 보호를 묶어 더 큰 기업 보안 예산을 노린다는 점이다.
AI 코딩 시대, 패키지 공급망은 ‘검증 카탈로그’로 막자는 액티브스테이트
액티브스테이트가 AI 코딩 도구가 가져오는 오픈소스 의존성 위험을 줄이기 위해 큐레이티드 카탈로그 지원을 확대했다. 커서, 클로드 코드, 깃랩 듀오 같은 도구별 플러그인을 붙이는 대신, 패키지를 가져오는 경로 자체를 검증된 저장소로 돌리는 접근이다.
Flock, 아동 체조실 카메라를 영업 데모에 써놓고 ‘투명성’이라고 해명
미국 조지아주 던우디에서 Flock 직원들이 도시와 민간 시설 카메라에 접근해 경찰 대상 영업 데모에 사용한 사실이 공개됐어. 접근 대상에는 아동 체조실, 놀이터, 학교, 유대인 커뮤니티 센터, 수영장 같은 민감한 장소가 포함됐고, 주민은 공개기록 청구로 접근 로그를 확보했어. Flock은 허가된 데모 프로그램이었다고 해명했지만, 이후 던우디 카메라를 제품 시연에 쓰는 건 중단하기로 했어.
댓글
댓글
댓글을 불러오는 중...