0
프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수
ai-ml
요약
기사 전체 정리
프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수(Concept Algebra)
기존 조종 방식은 왜 다 불만족스러운가
- Guide Labs에서 Steerling-8B이라는 8B 파라미터 해석 가능한(interpretable) 디퓨전 언어 모델을 공개했는데, 핵심 아이디어가 꽤 깔끔함: 모델 내부에 "개념 모듈(concept module)"이라는 아키텍처 병목을 넣어서, 모든 예측이 사람이 해석 가능한 개념을 거치도록 강제하는 거임
- 현재 LLM 조종 방법들을 하나씩 까는데 꽤 정확함:
- 프롬프팅: 접근은 쉽지만 신뢰할 수 없음. 시스템 프롬프트는 적대적 입력으로 우회 가능하고, few-shot 예제는 컨텍스트를 잡아먹으면서 일반화도 안 됨
- 파인튜닝/RLHF: 가중치를 전역으로 수정하니까 하나 잡으면 다른 데가 조용히 망가짐. 사소한 행동 변경에도 수천 개의 라벨 데이터가 필요하고, 새 목표마다 재훈련해야 함
- 사후 해석 방법(SAE, linear probe, activation patching): 모델이 애초에 갖고 있지 않을 수도 있는 개념을 발견하려고 하는 거임. probe가 정보를 감지했다고 모델이 그걸 생성에 쓴다는 보장이 없고, 두 개의 패치를 동시에 적용하면 합산 효과가 나올 거라는 보장도 없음
개념 주입과 개념 억제
- 개념 주입(concept injection) 데모가 인상적임: "Things to know before you start: 1." 같은 도메인 중립적 프롬프트 하나를 놓고, 프롬프트는 그대로 둔 채 내부 개념만 바꿔서 5개의 완전히 다른 도메인 출력을 생성함
- 개념 억제(concept suppression)도 됨: 임대차 분쟁 관련 프롬프트에서 "임대인-임차인 법률 관계" 개념(concept #12348)을 꺼버리면, 모델이 해당 법률 용어를 아예 사용하지 않게 됨. 추론 시점에 특정 개념의 기여를 개념 활성화 레이어에서 직접 삭제하는 방식(bottleneck intervention)임
- 그리고 이게 진짜 쓸모있는 부분인데, **다중 개념 동시 조종(concept algebra)**이 가능함. 콘텐츠 모더레이션에서 독성은 억제하면서 유창성은 유지한다든지, 의료 어시스턴트가 의학적 가이던스는 제공하면서 법적 리스크는 회피하게 한다든지 — 이런 게 개념 연산으로 조합 가능하다는 거임
정량 평가
- 100개 개념 x 20개 프롬프트 = 2,000 샘플로 체계적 평가를 돌림. Mistral-24B를 LLM 판정자로 써서 개념 점수(0-2)와 품질 점수(0-2)를 매김
- 비조종(unsteered) 상태에서 개념 점수 0.015 → 조종 후 0.783으로 올라감. 생성 품질은 기존 대비 84% 유지
- 조화 평균(harmonic mean)이 0.997로, 한쪽을 올리면 다른 쪽이 무너지는 trade-off가 거의 없음을 보여줌
팁
> 기술적 핵심: 출력 로짓이 개념 활성화와 개념 임베딩의 선형 함수이기 때문에, 변수를 직접 조작하면 예측 가능한 효과가 나옴. 프롬프트 엔지니어링이나 RLHF와는 근본적으로 다른 메커니즘임.
- Steerling-8B은 베이스 모델(instruction-tuned 아님)이고, 디퓨전 디코딩에서 mask-aligned injection이라는 기법을 씀 — 아직 결정되지 않은 위치에만 개념 임베딩을 주입하고, 언마스킹되면 자연스럽게 소멸시켜서 텍스트 품질을 유지하는 방식
댓글
댓글
댓글을 불러오는 중...