---
title: "프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수"
published: 2026-02-25T23:55:34.000Z
canonical: https://jeff.news/article/170
---
# 프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수

Guide Labs가 8B 파라미터 해석 가능한 디퓨전 언어 모델 Steerling-8B을 공개. 개념 모듈 아키텍처로 추론 시점에 개념을 주입/억제/조합할 수 있으며, 2000 샘플 평가에서 품질 84% 유지하면서 개념 점수를 0.015→0.783으로 올림.

## 기존 조종 방식은 왜 다 불만족스러운가

- Guide Labs에서 Steerling-8B이라는 8B 파라미터 해석 가능한(interpretable) 디퓨전 언어 모델을 공개했는데, 핵심 아이디어가 꽤 깔끔함: **모델 내부에 "개념 모듈(concept module)"이라는 아키텍처 병목을 넣어서, 모든 예측이 사람이 해석 가능한 개념을 거치도록 강제**하는 거임
- 현재 LLM 조종 방법들을 하나씩 까는데 꽤 정확함:
  - **프롬프팅**: 접근은 쉽지만 신뢰할 수 없음. 시스템 프롬프트는 적대적 입력으로 우회 가능하고, few-shot 예제는 컨텍스트를 잡아먹으면서 일반화도 안 됨
  - **파인튜닝/RLHF**: 가중치를 전역으로 수정하니까 하나 잡으면 다른 데가 조용히 망가짐. 사소한 행동 변경에도 수천 개의 라벨 데이터가 필요하고, 새 목표마다 재훈련해야 함
  - **사후 해석 방법(SAE, linear probe, activation patching)**: 모델이 애초에 갖고 있지 않을 수도 있는 개념을 발견하려고 하는 거임. probe가 정보를 감지했다고 모델이 그걸 생성에 쓴다는 보장이 없고, 두 개의 패치를 동시에 적용하면 합산 효과가 나올 거라는 보장도 없음

## 개념 주입과 개념 억제

- 개념 주입(concept injection) 데모가 인상적임: "Things to know before you start: 1." 같은 도메인 중립적 프롬프트 하나를 놓고, 프롬프트는 그대로 둔 채 내부 개념만 바꿔서 5개의 완전히 다른 도메인 출력을 생성함
- 개념 억제(concept suppression)도 됨: 임대차 분쟁 관련 프롬프트에서 "임대인-임차인 법률 관계" 개념(concept #12348)을 꺼버리면, 모델이 해당 법률 용어를 아예 사용하지 않게 됨. 추론 시점에 특정 개념의 기여를 개념 활성화 레이어에서 직접 삭제하는 방식(bottleneck intervention)임
- 그리고 이게 진짜 쓸모있는 부분인데, **다중 개념 동시 조종(concept algebra)**이 가능함. 콘텐츠 모더레이션에서 독성은 억제하면서 유창성은 유지한다든지, 의료 어시스턴트가 의학적 가이던스는 제공하면서 법적 리스크는 회피하게 한다든지 — 이런 게 개념 연산으로 조합 가능하다는 거임

## 정량 평가

- 100개 개념 x 20개 프롬프트 = 2,000 샘플로 체계적 평가를 돌림. Mistral-24B를 LLM 판정자로 써서 개념 점수(0-2)와 품질 점수(0-2)를 매김
- 비조종(unsteered) 상태에서 개념 점수 0.015 → 조종 후 0.783으로 올라감. 생성 품질은 기존 대비 84% 유지
- 조화 평균(harmonic mean)이 0.997로, 한쪽을 올리면 다른 쪽이 무너지는 trade-off가 거의 없음을 보여줌

> [!TIP]
> 기술적 핵심: 출력 로짓이 개념 활성화와 개념 임베딩의 선형 함수이기 때문에, 변수를 직접 조작하면 예측 가능한 효과가 나옴. 프롬프트 엔지니어링이나 RLHF와는 근본적으로 다른 메커니즘임.

- Steerling-8B은 베이스 모델(instruction-tuned 아님)이고, 디퓨전 디코딩에서 mask-aligned injection이라는 기법을 씀 — 아직 결정되지 않은 위치에만 개념 임베딩을 주입하고, 언마스킹되면 자연스럽게 소멸시켜서 텍스트 품질을 유지하는 방식

## 핵심 포인트

- 모든 출력 로짓이 개념 활성화의 선형 함수라 예측 가능한 조종이 가능
- 개념 주입, 억제, 다중 개념 동시 조종(concept algebra) 지원
- 2000 샘플 평가에서 조화 평균 0.997로 품질-개념 trade-off 거의 없음
- 프롬프팅/RLHF/SAE 등 기존 방식의 한계를 구조적으로 해결

## 인사이트

해석 가능성을 사후 분석이 아니라 아키텍처 레벨에서 설계에 녹인 접근. 콘텐츠 모더레이션이나 도메인 특화 어시스턴트에서 실용적 가치가 클 수 있음.