---
title: "Pi-Autoresearch: AI 에이전트용 자율 최적화 루프 확장"
published: 2026-03-12T22:35:51.000Z
canonical: https://jeff.news/article/485
---
# Pi-Autoresearch: AI 에이전트용 자율 최적화 루프 확장

터미널 AI 코딩 에이전트 pi용 확장으로, 아이디어 시도-벤치마크-유지/리버트를 자율적으로 반복하는 최적화 루프를 제공함. MAD 기반 신뢰도 평가, 세션 영속성, 클린 브랜치 분리 기능 포함.

pi(터미널 AI 코딩 에이전트)용 확장으로, 자율 최적화 루프를 돌려주는 도구임. karpathy/autoresearch에서 영감을 받았고, 아이디어 시도 -> 벤치마크 -> 개선이면 유지, 퇴보면 리버트 -> 반복 사이클을 자동으로 수행함.

테스트 속도, 번들 사이즈, LLM 학습, 빌드 시간, Lighthouse 점수 등 어떤 최적화 대상이든 적용 가능함. 도메인 지식은 skill에, 인프라는 extension에 분리되어 있어서 하나의 확장으로 무한한 도메인을 커버하는 구조임.

핵심 도구는 세 가지: `init_experiment`(세션 설정), `run_experiment`(커맨드 실행 및 측정), `log_experiment`(결과 기록 및 자동 커밋). `/autoresearch` 명령으로 세션을 시작하면 에이전트가 편집 -> 커밋 -> 실험 실행 -> 로그 -> 유지 또는 리버트를 자율적으로 반복함.

신뢰도 평가가 꽤 괜찮음. 3회 이상 실험 후 MAD(Median Absolute Deviation)로 노이즈를 추정하고, `|최고 개선폭| / MAD`로 confidence를 계산함. 2.0x 이상이면 실제 개선일 가능성 높음, 1.0~2.0x는 애매, 1.0x 미만은 노이즈 범위 내임.

세션 상태는 `autoresearch.md`(목표, 시도 내역 등 세션 문서)와 `autoresearch.jsonl`(실행별 로그)에 기록되어, 컨텍스트가 리셋되거나 재시작해도 새 에이전트가 그대로 이어받을 수 있음. 선택적으로 `autoresearch.checks.sh`를 만들면 벤치마크 통과 후 테스트/타입체크/린트를 돌려서 최적화가 기존 코드를 깨뜨리지 않는지 확인함.

`autoresearch-finalize`도 유용함. 실험 브랜치의 지저분한 커밋들을 논리적 변경 단위로 분리해서 독립적인 클린 브랜치로 만들어 줌. 파일이 겹치지 않게 그룹핑하므로 각 브랜치를 독립적으로 리뷰하고 머지할 수 있음.

설정은 `autoresearch.config.json`으로 `workingDir`이나 `maxIterations`(토큰 비용 관리용) 지정 가능. MIT 라이선스임.

## 핵심 포인트

- init_experiment, run_experiment, log_experiment 세 가지 핵심 도구 제공
- MAD로 노이즈 추정 후 confidence = |최고개선폭|/MAD로 신뢰도 평가 (2.0x 이상이면 실제 개선)
- autoresearch.md와 autoresearch.jsonl로 세션 상태 영속화, 컨텍스트 리셋 후에도 재개 가능
- autoresearch-finalize로 실험 브랜치를 논리적 변경 단위의 클린 브랜치로 분리
- 도메인 비의존적 인프라(extension)와 도메인 지식(skill) 분리 구조

## 인사이트

AI 코딩 에이전트에 자율 실험 루프를 붙이는 접근이 흥미로움. 토큰 비용이 빠르게 쌓일 수 있어 maxIterations 설정이 중요함.
