랜덤 노이즈 2개로 LLM 추론 능력이 올라감 — 학습 없이, 파인튜닝 없이

ai-ml 2025-12-22 약 7분

 tags

#llm #reasoning #prompt-engineering #machine-learning #research

vote

북마크

Qwen3-4B 입력에 랜덤 임베딩 스케일 토큰 2개를 붙이면 산술 정확도가 32%에서 51.6%로 향상됨. 학습이나 파인튜닝 없이 노이즈만으로 attention sink 회피와 latent 지식 접근이라는 두 가지 메커니즘을 통해 추론 성능을 개선하는 연구임.

1
랜덤 임베딩 토큰 2개 추가만으로 Qwen3-4B 산술 정확도 32%→51.6% 향상됨 (학습/파인튜닝 없음)
2
Dose-response가 비단조적: 2토큰이 최적이고 더 늘리면 ~44%로 퇴행됨
3
캐시 디버깅 태스크에서 baseline 14단어 실패를 650~710단어 완전한 계획으로 복구함
4
Attention sink 회피와 진화를 통한 latent 지식 접근이라는 두 가지 메커니즘이 확인됨
5
스케일링, 파인튜닝, 프롬프트 엔지니어링, RAG, 샘플링과 완전히 직교하는 새로운 개선 축임

핵심 발견

❗중요

> Qwen3-4B 입력 앞에 랜덤 임베딩 스케일 토큰 2개만 붙이면 산술 정확도가 32% → 51.6% (+19.6pp)로 올라감. 학습도, 파인튜닝도, 최적화도 전혀 없음. 그냥 적절한 스케일의 노이즈를 넣은 것뿐임.

Dose-Response: 2토큰이 최적

노이즈 토큰 수에 따른 정확도 변화가 비단조적(non-monotonic)임
- 1토큰: 42.7% (+10.7pp)
- 2토큰: 51.6% (+19.6pp) ← 최적
- 3토큰: 44.0% (+12pp)
- 8토큰: 44.4% (+12.4pp)
토큰 수를 늘린다고 더 좋아지지 않고 오히려 ~44%로 퇴행됨
방향(direction)은 총 정답 수에 영향 없지만, 각 방향이 서로 다른 태스크 부분집합을 풀어냄
10개의 2토큰 방향으로 100% oracle coverage (25/25 태스크) 달성함

Attention Sink 회피 — 치명적 실패 복구

복잡한 플래닝 태스크(시스템 설계, 인시던트 대응, 캐시 디버깅)에서 greedy baseline이 완전히 실패하는 경우가 있음
캐시 디버깅 태스크: baseline은 단 14단어 만에 attention-sink 루프에 갇혀 생성이 중단됨
5개 랜덤 perturbation seed 모두 이를 650~710단어의 완전한 진단 계획으로 복구시킴
메커니즘: 소프트 프롬프트가 초기 위치의 attention sink 패턴을 깨뜨려 퇴화된 생성 경로를 탈출시킴

진화된 Latent Vector — 다른 지식에 접근함

진화된 소프트 프롬프트는 단순히 더 많은 단어를 생성하는 게 아님
질적으로 완전히 다른 추론을 만들어냄
- 인시던트 대응 태스크에서: honeypot 배포, MITRE ATT&CK 프레임워크 분석, HSM 기반 credential rotation, immutable container rebuild 등
- 이런 개념들은 baseline에서 한 번도 등장하지 않음
모델이 해당 지식을 이미 갖고 있지만, 기본 greedy 디코딩으로는 접근하지 못하는 영역임

기존 방법론과 완전히 직교함

스케일링: 파라미터를 추가함 → 여기선 파라미터 변경 0
파인튜닝: 가중치를 업데이트함 → 여기선 가중치 동결
프롬프트 엔지니어링: 이산 토큰을 최적화함 → 여기선 연속 임베딩 주입
RAG: 외부 지식을 추가함 → 여기선 내부 지식을 언락함
Best-of-N 샘플링: N번 생성 후 최선 선택 → 여기선 N번의 가벼운 MLP 평가 + 1회 생성

메커니즘 분석

프리픽스가 모델을 "formal presentation mode"에서 "exploratory computation mode"로 전환시킴
이건 trajectory perturbation — 능력 자체가 아니라 정책(policy)의 변화임
Chain-of-thought가 매개함: thinking을 비활성화하면 효과가 완전히 사라짐
첫 토큰 logit probe에서 <think> 확률이 모든 조건에서 99.99% 이상 → perturbation은 모드 진입이 아니라 추론 체인 자체를 조정함

두 가지 핵심 메커니즘이 확인됨:

Attention sink 회피: 초기 토큰의 attention sink가 퇴화 생성을 유발하는데, 2개 위치의 소프트 프롬프트가 이를 깨뜨림
진화를 통한 latent 지식 접근: 진화된 소프트 프롬프트가 모델의 지식 공간에서 다른 영역으로 조향함

멀티모델 검증 결과

모델	양자화	Baseline	+Noise	Delta
Qwen3-4B	4-bit	32%	51.6%	+19.6pp
Qwen3-8B	8-bit	16%	28.8%	+12.8pp
DeepSeek-1.5B	4-bit	76%	74.4%	-1.6pp
phi-2	none	12%	18.7%	+6.7pp

Qwen3-4B에서 가장 큰 효과가 나타남
DeepSeek-1.5B에서는 효과가 미미하거나 역효과임
모델별로 메커니즘이 다름: 4B는 convergence 도움, 8B는 computation 자체도 개선됨

실용 정보

MIT 라이선스, 상업적 사용 가능
Python 3.10+, PyTorch 2.0+, VRAM 최소 2GB(Qwen3-0.6B) ~ 권장 8GB(Qwen3-4B)
NeurIPS 논문 드래프트 포함됨
기여자 대상 월간 바운티 프로그램 운영 중 (1위 $500)

시니어 개발자 관점

"노이즈를 넣으면 더 잘 됨"이라는 직관에 반하는 결과이지만, 메커니즘 분석이 꽤 체계적임
attention sink 회피라는 개념은 inference-time 최적화에서 실용적 가치가 있을 수 있음
다만 n=25(산술), n=5(플래닝)로 표본 크기가 작고, 효과가 모델에 따라 크게 다름
프로덕션에 바로 적용하기보다는 inference 파이프라인의 새로운 축으로 주시할 만한 연구임
Best-of-N 대비 연산 효율이 높다는 주장은 scorer 품질에 의존하므로, scorer 개선이 핵심 과제임

Trajectory perturbation이라는 개념이 흥미롭지만, 표본 크기가 작고(n=25 산술, n=5 플래닝) 모델별 효과 차이가 큼. 프로덕션 적용보다는 inference-time 최적화의 새로운 방향성으로 주시할 만한 연구임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

랜덤 노이즈 2개로 LLM 추론 능력이 올라감 — 학습 없이, 파인튜닝 없이

요약

핵심 포인트

분석

핵심 발견

Dose-Response: 2토큰이 최적

Attention Sink 회피 — 치명적 실패 복구

진화된 Latent Vector — 다른 지식에 접근함

기존 방법론과 완전히 직교함

메커니즘 분석

멀티모델 검증 결과

실용 정보

시니어 개발자 관점

인사이트

댓글

댓글

랜덤 노이즈 2개로 LLM 추론 능력이 올라감 — 학습 없이, 파인튜닝 없이

요약

핵심 포인트

분석

핵심 발견

Dose-Response: 2토큰이 최적

Attention Sink 회피 — 치명적 실패 복구

진화된 Latent Vector — 다른 지식에 접근함

기존 방법론과 완전히 직교함

메커니즘 분석

멀티모델 검증 결과

실용 정보

시니어 개발자 관점

인사이트

댓글

댓글

관련 기사