본문으로 건너뛰기
0
r/jeffnews HN 약 4분

Pi-Autoresearch: AI 에이전트용 자율 최적화 루프 확장

open-source

요약

터미널 AI 코딩 에이전트 pi용 확장으로, 아이디어 시도-벤치마크-유지/리버트를 자율적으로 반복하는 최적화 루프를 제공함. MAD 기반 신뢰도 평가, 세션 영속성, 클린 브랜치 분리 기능 포함.

기사 전체 정리

pi(터미널 AI 코딩 에이전트)용 확장으로, 자율 최적화 루프를 돌려주는 도구임. karpathy/autoresearch에서 영감을 받았고, 아이디어 시도 -> 벤치마크 -> 개선이면 유지, 퇴보면 리버트 -> 반복 사이클을 자동으로 수행함.

테스트 속도, 번들 사이즈, LLM 학습, 빌드 시간, Lighthouse 점수 등 어떤 최적화 대상이든 적용 가능함. 도메인 지식은 skill에, 인프라는 extension에 분리되어 있어서 하나의 확장으로 무한한 도메인을 커버하는 구조임.

핵심 도구는 세 가지: init_experiment(세션 설정), run_experiment(커맨드 실행 및 측정), log_experiment(결과 기록 및 자동 커밋). /autoresearch 명령으로 세션을 시작하면 에이전트가 편집 -> 커밋 -> 실험 실행 -> 로그 -> 유지 또는 리버트를 자율적으로 반복함.

신뢰도 평가가 꽤 괜찮음. 3회 이상 실험 후 MAD(Median Absolute Deviation)로 노이즈를 추정하고, |최고 개선폭| / MAD로 confidence를 계산함. 2.0x 이상이면 실제 개선일 가능성 높음, 1.0~2.0x는 애매, 1.0x 미만은 노이즈 범위 내임.

세션 상태는 autoresearch.md(목표, 시도 내역 등 세션 문서)와 autoresearch.jsonl(실행별 로그)에 기록되어, 컨텍스트가 리셋되거나 재시작해도 새 에이전트가 그대로 이어받을 수 있음. 선택적으로 autoresearch.checks.sh를 만들면 벤치마크 통과 후 테스트/타입체크/린트를 돌려서 최적화가 기존 코드를 깨뜨리지 않는지 확인함.

autoresearch-finalize도 유용함. 실험 브랜치의 지저분한 커밋들을 논리적 변경 단위로 분리해서 독립적인 클린 브랜치로 만들어 줌. 파일이 겹치지 않게 그룹핑하므로 각 브랜치를 독립적으로 리뷰하고 머지할 수 있음.

설정은 autoresearch.config.json으로 workingDir이나 maxIterations(토큰 비용 관리용) 지정 가능. MIT 라이선스임.

핵심 포인트

  • init_experiment, run_experiment, log_experiment 세 가지 핵심 도구 제공
  • MAD로 노이즈 추정 후 confidence = |최고개선폭|/MAD로 신뢰도 평가 (2.0x 이상이면 실제 개선)
  • autoresearch.md와 autoresearch.jsonl로 세션 상태 영속화, 컨텍스트 리셋 후에도 재개 가능
  • autoresearch-finalize로 실험 브랜치를 논리적 변경 단위의 클린 브랜치로 분리
  • 도메인 비의존적 인프라(extension)와 도메인 지식(skill) 분리 구조

인사이트

AI 코딩 에이전트에 자율 실험 루프를 붙이는 접근이 흥미로움. 토큰 비용이 빠르게 쌓일 수 있어 maxIterations 설정이 중요함.

댓글

댓글

댓글을 불러오는 중...

open-source

Microsoft가 공개한 Rust 트레이닝 자료 — 초급부터 전문가까지 7개 코스

Microsoft가 배경 언어별 입문서 3권과 심화/전문가/실무 과정 4권으로 구성된 Rust 트레이닝 자료를 GitHub에 공개했다. 각 권마다 15-16개 챕터, Mermaid 다이어그램, Playground 연습문제를 포함한다.

open-source

RK3588 GPU 안에 숨어있는 Cortex-M7 MCU를 뜯어보고 Rust/gdb/MicroPython까지 올려본 이야기

RK3588의 Mali-G610 GPU 내부에 990MHz로 동작하는 Cortex-M7 MCU가 있으며, 이 펌웨어가 커널 대신 GPU 작업을 관리함. 메모리 접근의 3단 계층 구조, 인터럽트 시스템, 펌웨어 이미지 포맷을 분석하고, 실제로 Rust 정적 라이브러리, gdb 디버깅, MicroPython까지 MCU 위에서 구동하는 과정을 상세히 다룸.

open-source

오픈소스가 전부를 줬고, 줄 것이 남지 않을 때까지 — Requests 창시자의 고백

Python Requests 라이브러리 창시자 Kenneth Reitz가 오픈소스가 준 커리어, 정체성, 그리고 진단되지 않은 양극성 장애와 맞물린 정신건강 위기를 솔직하게 회고한 에세이.

open-source

IBM Z/LinuxONE 오픈소스 2월 리포트 — Cassandra부터 Terraform까지 27개 검증

IBM이 s390x 메인프레임에서 27개 오픈소스 소프트웨어 호환성을 검증한 월간 리포트. upterm, Python websockets 등이 새로 s390x 지원을 시작했고, Open Mainframe Project가 Mainframe Software Hub를 발표함.

open-source

1년간 OS를 밑바닥부터 만든 개발자 — 부트로더에서 Doom 포팅까지

MONOLITH이라는 OS를 처음부터 만든 1년간의 개발 일지. GDT/IDT 초기화부터 시작해 메모리 관리, 유저스페이스, IPC, 데스크톱 환경까지 구현하고 최종적으로 Doom 포팅에 성공함.