본문으로 건너뛰기
피드

오픈 모델 안전장치, 이제 10분이면 풀린다는 경고가 나옴

ai-ml 약 4분
vote
0
댓글
북마크

메타 Llama와 구글 Gemma 같은 공개형 AI 모델에서 안전장치를 제거한 변형 모델이 빠르게 퍼지고 있다는 보도야. FT와 AI 안전성 단체 앨리스 실험에 따르면 GitHub에 공개된 도구만으로도 일반 사용자 수준에서 Llama 3.3의 제한을 10분 안에 약화할 수 있었다고 해.

  • 1

    GitHub 도구 ‘Heretic’으로 Llama 3.3 안전장치 제거가 10분 안에 가능했다는 실험 결과가 나옴

  • 2

    검열 해제 모델은 3500개 이상 만들어졌고 다운로드 수는 1300만회를 넘었다고 보도됨

  • 3

    공개형 모델은 다운로드 후 수정이 가능해 원 개발사의 가드레일 통제가 어렵다는 점이 핵심 리스크

  • 메타와 구글의 공개형 AI 모델에서 안전장치를 제거한 변형 모델이 빠르게 퍼지고 있다는 경고가 나옴

    • FT가 AI 안전성 단체 앨리스와 실험한 결과, GitHub에 공개된 ‘Heretic’ 도구로 Llama 3.3의 안전장치를 10분도 안 돼 약화할 수 있었다고 보도됨
    • 변형된 Gemma 3 모델은 원래 거부해야 할 위험한 요청에도 응답한 사례가 확인됐다고 함
  • 문제는 이게 더 이상 고급 연구자만 가능한 작업이 아니라는 점임

    • 시카고대 카윈 에타야라지 교수는 예전엔 전문성과 집요함이 필요했지만, 지금은 일반 사용자도 훨씬 쉽게 접근할 수 있게 됐다고 봄
    • 핵심 기법으로 거론되는 건 ‘어블리터레이션(abliteration)’인데, 모델 내부의 안전 거부 성향을 제거하거나 약화하는 방식임

중요

> FT 보도 기준으로 ‘검열 해제’ 모델은 3500개 이상 만들어졌고, 다운로드 수는 1300만회를 넘었다고 함. 이 정도면 단순한 연구실 이슈가 아니라 배포 생태계 이슈임.

  • 폐쇄형 모델과 공개형 모델의 차이가 여기서 확 갈림

    • ChatGPT나 Claude 같은 폐쇄형 모델은 내부 코드와 가중치 접근이 제한돼 있어 서비스 제공자가 통제할 여지가 큼
    • 반면 Llama나 Gemma 같은 공개형 모델은 내려받아 수정할 수 있으니, 원 개발사가 만든 가드레일이 복제 이후에도 유지된다고 보기 어려움
  • 규제 측면에서도 골치 아픈 포인트가 있음

    • AI 기업들은 위험 답변을 막기 위해 큰 비용을 들여 가드레일을 만들지만, 모델이 인터넷에서 복제·수정되면 통제권이 급격히 약해짐
    • 앨리스 공동창업자 노엄 슈워츠는 예전엔 공상과학 같던 일이 더 이상 공상과학이 아니라고 경고함
  • 그렇다고 무조건 유해 데이터를 다 지우는 게 답도 아니라는 반론도 있음

    • 에타야라지 교수는 위험 데이터를 완전히 제거하면 모델이 악성 사용 여부를 판단하지 못하는 ‘순진한 모델’이 될 수 있다고 지적함
    • 구글은 어블리터레이션이 모든 공개형 모델이 직면한 기술 과제라며, 출시 전 내부 안전성 검증을 거친다고 설명함
    • GitHub는 불법 공격이나 악성코드 직접 지원 콘텐츠는 금지하지만, 보안 연구 목적 코드는 교육적 가치도 고려한다고 밝힘

기술 맥락

  • 공개형 모델의 핵심 선택은 ‘가중치를 공개해 생태계를 키울 것인가’예요. 연구자와 개발자는 비용을 줄이고 자체 인프라에서 모델을 튜닝할 수 있지만, 같은 이유로 안전장치도 원 개발사 통제 밖에서 바뀔 수 있거든요.

  • 폐쇄형 모델은 API 뒤에서 정책을 강제할 수 있어서 운영 통제가 쉬워요. 대신 비용, 지연시간, 데이터 반출 이슈가 생기고, 사용자는 모델 내부를 검증하기 어렵다는 trade-off가 있어요.

  • 이번 이슈가 중요한 이유는 공격자가 모델을 ‘프롬프트로 속이는’ 수준을 넘어, 모델 자체의 거부 성향을 약화하는 방향으로 가고 있기 때문이에요. 서비스에 오픈 모델을 붙이는 팀은 모델 선택만이 아니라 실행 환경, 출력 필터, 감사 로그, abuse 대응까지 같이 설계해야 해요.

오픈 모델 생태계의 장점이 그대로 보안 운영의 난점이 되고 있음. 한국 개발팀도 오픈 모델을 제품에 붙일 때 ‘모델 자체가 안전하다’가 아니라 배포·로깅·정책·차단 계층까지 같이 봐야 할 타이밍이야.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.