본문으로 건너뛰기
0
r/jeffnews HN 약 5분

프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수

ai-ml

요약

Guide Labs가 8B 파라미터 해석 가능한 디퓨전 언어 모델 Steerling-8B을 공개. 개념 모듈 아키텍처로 추론 시점에 개념을 주입/억제/조합할 수 있으며, 2000 샘플 평가에서 품질 84% 유지하면서 개념 점수를 0.015→0.783으로 올림.

기사 전체 정리

프롬프트 안 바꾸고 LLM 내부를 직접 조종한다 — Steerling-8B의 개념 대수(Concept Algebra)

기존 조종 방식은 왜 다 불만족스러운가

  • Guide Labs에서 Steerling-8B이라는 8B 파라미터 해석 가능한(interpretable) 디퓨전 언어 모델을 공개했는데, 핵심 아이디어가 꽤 깔끔함: 모델 내부에 "개념 모듈(concept module)"이라는 아키텍처 병목을 넣어서, 모든 예측이 사람이 해석 가능한 개념을 거치도록 강제하는 거임
  • 현재 LLM 조종 방법들을 하나씩 까는데 꽤 정확함:
    • 프롬프팅: 접근은 쉽지만 신뢰할 수 없음. 시스템 프롬프트는 적대적 입력으로 우회 가능하고, few-shot 예제는 컨텍스트를 잡아먹으면서 일반화도 안 됨
    • 파인튜닝/RLHF: 가중치를 전역으로 수정하니까 하나 잡으면 다른 데가 조용히 망가짐. 사소한 행동 변경에도 수천 개의 라벨 데이터가 필요하고, 새 목표마다 재훈련해야 함
    • 사후 해석 방법(SAE, linear probe, activation patching): 모델이 애초에 갖고 있지 않을 수도 있는 개념을 발견하려고 하는 거임. probe가 정보를 감지했다고 모델이 그걸 생성에 쓴다는 보장이 없고, 두 개의 패치를 동시에 적용하면 합산 효과가 나올 거라는 보장도 없음

개념 주입과 개념 억제

  • 개념 주입(concept injection) 데모가 인상적임: "Things to know before you start: 1." 같은 도메인 중립적 프롬프트 하나를 놓고, 프롬프트는 그대로 둔 채 내부 개념만 바꿔서 5개의 완전히 다른 도메인 출력을 생성함
  • 개념 억제(concept suppression)도 됨: 임대차 분쟁 관련 프롬프트에서 "임대인-임차인 법률 관계" 개념(concept #12348)을 꺼버리면, 모델이 해당 법률 용어를 아예 사용하지 않게 됨. 추론 시점에 특정 개념의 기여를 개념 활성화 레이어에서 직접 삭제하는 방식(bottleneck intervention)임
  • 그리고 이게 진짜 쓸모있는 부분인데, **다중 개념 동시 조종(concept algebra)**이 가능함. 콘텐츠 모더레이션에서 독성은 억제하면서 유창성은 유지한다든지, 의료 어시스턴트가 의학적 가이던스는 제공하면서 법적 리스크는 회피하게 한다든지 — 이런 게 개념 연산으로 조합 가능하다는 거임

정량 평가

  • 100개 개념 x 20개 프롬프트 = 2,000 샘플로 체계적 평가를 돌림. Mistral-24B를 LLM 판정자로 써서 개념 점수(0-2)와 품질 점수(0-2)를 매김
  • 비조종(unsteered) 상태에서 개념 점수 0.015 → 조종 후 0.783으로 올라감. 생성 품질은 기존 대비 84% 유지
  • 조화 평균(harmonic mean)이 0.997로, 한쪽을 올리면 다른 쪽이 무너지는 trade-off가 거의 없음을 보여줌

💡

> 기술적 핵심: 출력 로짓이 개념 활성화와 개념 임베딩의 선형 함수이기 때문에, 변수를 직접 조작하면 예측 가능한 효과가 나옴. 프롬프트 엔지니어링이나 RLHF와는 근본적으로 다른 메커니즘임.

  • Steerling-8B은 베이스 모델(instruction-tuned 아님)이고, 디퓨전 디코딩에서 mask-aligned injection이라는 기법을 씀 — 아직 결정되지 않은 위치에만 개념 임베딩을 주입하고, 언마스킹되면 자연스럽게 소멸시켜서 텍스트 품질을 유지하는 방식

핵심 포인트

  • 모든 출력 로짓이 개념 활성화의 선형 함수라 예측 가능한 조종이 가능
  • 개념 주입, 억제, 다중 개념 동시 조종(concept algebra) 지원
  • 2000 샘플 평가에서 조화 평균 0.997로 품질-개념 trade-off 거의 없음
  • 프롬프팅/RLHF/SAE 등 기존 방식의 한계를 구조적으로 해결

인사이트

해석 가능성을 사후 분석이 아니라 아키텍처 레벨에서 설계에 녹인 접근. 콘텐츠 모더레이션이나 도메인 특화 어시스턴트에서 실용적 가치가 클 수 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

ai-ml

구글 TurboQuant: AI 모델 압축의 판도를 바꾸는 기술 등장 (ICLR 2026)

구글 리서치가 AI 모델의 핵심 병목인 키-값 캐시(KV Cache) 문제를 해결하는 압축 알고리즘 TurboQuant를 공개했음. 학습 없이 KV 캐시를 3비트까지 줄이면서도 모델 정확도 손실 제로, H100 GPU에서 최대 8배 속도 향상이라는 미친 성능을 보여줌. PolarQuant, QJL과 함께 ICLR 2026에서 발표 예정.

ai-ml

Claude Code한테 내 옛날 연구 코드 맡겨봤는데 하루만에 54% 성능 향상시킴 ㄷㄷ

Karpathy의 Autoresearch 방법론에서 영감 받아서, 저자가 자기 옛날 연구 코드(eCLIP)를 Claude Code한테 던져주고 빨래/장보기 하러 갔음. 돌아왔더니 42번 실험 돌리고 Mean Rank를 344→157로 54% 줄여놨다는 레전드 썰. 근데 버그 하나 고친 게 모든 아키텍처 개선 합친 것보다 효과가 컸다는 게 포인트 ㅋㅋ

ai-ml

Claude Code 치트시트 레전드 정리본 떴다 - 이거 하나면 끝

Claude Code의 모든 슬래시 커맨드, 단축키, 고급 기능을 한 페이지에 때려박은 치트시트임. /btw 같은 숨겨진 꿀기능부터 Git Worktree, Voice Mode까지 ㄹㅇ 알차게 담겨있어서 북마크 필수각.

ai-ml

딥러닝용 미친 사양 컴퓨터 'Tinybox' - 최대 1 엑사플롭 지원에 가격은 100억?

tinygrad 팀이 만든 딥러닝 전용 컴퓨터 'Tinybox'가 이제 실제로 판매 중임. red($12,000)부터 green($65,000), 그리고 2027년 출시 예정인 초고사양 'exabox'(~$10M)까지 라인업 구성. 근데 exabox 스펙이 진짜 레전드 수준ㅋㅋ