본문으로 건너뛰기
피드

Claude Code한테 내 옛날 연구 코드 맡겨봤는데 하루만에 54% 성능 향상시킴 ㄷㄷ

ai-ml 약 6분
vote
0
댓글
북마크

Karpathy의 Autoresearch 방법론에서 영감 받아서, 저자가 자기 옛날 연구 코드(eCLIP)를 Claude Code한테 던져주고 빨래/장보기 하러 갔음. 돌아왔더니 42번 실험 돌리고 Mean Rank를 344→157로 54% 줄여놨다는 레전드 썰. 근데 버그 하나 고친 게 모든 아키텍처 개선 합친 것보다 효과가 컸다는 게 포인트 ㅋㅋ

  • 1

    버그 수정 한 줄이 모든 아키텍처 개선보다 효과 컸음 (-113 Mean Rank)

  • 2

    탐색 공간 명확 = 에이전트 최강, unknown unknowns 구간 = 스파게티

  • 3

    샌드박스 없이 풀 자율권은 아직 무리 - 이상한 bash 치거나 그냥 대화 종료함

  • Claude Code가 하루 동안 42번 실험, 13번 커밋, 29번 리버트해서 Mean Rank 344→157 (54% 감소) 달성
  • 가장 큰 단일 성능 향상은 아키텍처 개선이 아니라 temperature clamp 버그 수정 (-113점) ㄹㅇ 레전드
  • Autoresearch 루프: 가설 → 수정 → 훈련 → 평가 → 커밋/리버트 → 반복 구조
  • 명확하게 정의된 탐색 공간에서는 개쩌는 성능, "unknown unknowns" 구간에선 스파게티 던지기 수준으로 전락
  • 샌드박스 필수: 말 안 들으면 이상한 bash 명령어 치거나 훈련 기다리다 그냥 대화 종료하는 사태 발생 ㅋㅋ

🔬 프로젝트 배경

저자가 Karpathy의 Autoresearch를 보고 "이거 내가 완전히 이해하는 연구 문제에 써보면 어떨까?" 생각함. 그래서 자기 옛날 연구 코드인 eCLIP (의료 X-ray에 방사선사 시선 히트맵을 활용한 CLIP 모델)을 꺼내서 Claude Code한테 맡김.

⚙️ Autoresearch 핵심 구조

Autoresearch는 LLM 에이전트가 중간에 낀 단순한 제약 최적화 루프임:

  • 에이전트가 train.py 파일 하나만 수정 가능
  • program.md에서 지시사항 읽기
  • scratchpad.md를 working memory로 활용 (실험 히스토리 기록)
  • 실험 1회당 약 5분 제한 (빠른 이터레이션 + 노이즈 오버피팅 방지)

탐색 단계는 크게:

  1. 하이퍼파라미터 튜닝
  2. 소규모 아키텍처 변경
  3. 문샷 아이디어 (웹 접근 허용, 논문 읽기)

🔒 샌드박스 설정

"에이전트가 내 워크스테이션에서 아무 코드나 실행하면 어떡함" 이라는 합리적인 공포로 인해 꼼꼼하게 격리:

  • 훈련 루프 컨테이너화 + 네트워크 차단
  • Claude Code 권한: train.py, scratchpad.md 편집 + run.sh 실행만 허용
  • 직접 Python 실행, pip install, git push 등 전부 차단

📊 데이터셋

원본 논문의 의료 X-ray 데이터셋은 접근 불가라서 Ukiyo-eVG 데이터셋 사용:

  • 약 11K개의 일본 우키요에(목판화) 이미지
  • 구절 → 바운딩 박스 어노테이션 포함 (CIGAr 논문, ECCV 2024)
  • 바운딩 박스를 가우시안 히트맵으로 변환해서 원래 eCLIP의 방사선사 시선 히트맵처럼 활용

모델 스펙: ViT-Small (22M) + DistilBERT (66M) + HeatmapProcessor = 약 90M 파라미터

베이스라인: Val Mean Rank 344.68, img→txt R@1 17.2%, txt→img R@1 16.5%

📈 결과 요약

지표 수치
Test Mean Rank 34.30
img→txt R@5 53.0%
txt→img R@5 51.4%

42번 실험 · 13번 커밋 · 29번 리버트 · RTX 4090 1장 · 토요일 하루

🏆 무엇이 실제로 효과 있었나?

1. Temperature clamp 버그 수정 (-113 Mean Rank) 🐛 Learnable temperature 파라미터를 2로 클램프해놓은 버그를 바로 잡아냄. 이 수정 하나가 이후 모든 아키텍처 변경을 합친 것보다 효과가 컸음. 진짜 레전드 ㄷㄷ

2. Optuna 스타일 하이퍼파라미터 튜닝 (-30 Mean Rank) 🔧 projection dimension 늘리고 LR 재튜닝으로 추가 30점 감소. 사람이 해도 되는 일이지만 에이전트가 더 빠르고 체계적으로 처리함.

3. 아키텍처 변경 (효과 미미) 😅 Phase 4~5로 갈수록 LLM 가설의 성공률이 급감. 히트맵 프로세서 어텐션 메커니즘 변경도, 문샷 아이디어도 대부분 실패. 그냥 스파게티 던지기 수준.

💭 마무리 생각

"LLM 프로젝트는 처음 90%는 개순조롭고, 마지막 10%가 진짜 험난함" 이라는 법칙 그대로 적용됨.

탐색 공간이 명확하게 정의된 구간에서는 commit-or-revert 루프가 놀라울 정도로 효과적. 근데 "unknown unknowns" 구간으로 넘어가면 최적화 루프가 폭발함.

저자가 생각하는 개선 방향:

  • 문샷 아이디어에는 "실험 1번에 1가지 변경" 제약이 너무 빡빡할 수 있음
  • 에이전트 루프에 플래닝 단계 추가 검토
  • 서브에이전트 활용 가능성

근데 저녁 먹을 시간이 됐고 영화도 봐야 해서 여기서 Claude랑 헤어졌다고 함 ㅋㅋ

결국 AI 에이전트도 '버그 있는 코드 위에서 아무리 열심히 해봤자 한계 있다'는 교훈을 몸소 보여줌 ㅋㅋ 근데 반대로 생각하면, 버그 찾는 능력 자체가 이미 개쩔었다는 거 아님? 사람이었으면 temperature clamp 버그 그냥 지나쳤을 수도 있는데.

댓글

댓글

댓글을 불러오는 중...

ai-ml

스페이스X가 리플렉션AI에 63억달러짜리 GPU 컴퓨팅을 판다

스페이스X가 오픈소스 AI 스타트업 리플렉션AI와 최대 63억달러 규모의 컴퓨팅 공급 계약을 맺었다. 리플렉션AI는 스페이스X의 콜로서스 인프라와 엔비디아 GB300 칩을 쓰게 되고, 스페이스X는 로켓·스타링크를 넘어 AI 인프라 사업자로 몸집을 키우는 그림이다.

ai-ml

게티이미지, 오픈AI와 손잡자 주가 200% 뛰었다

게티이미지가 오픈AI와 다년간 콘텐츠 표시 계약을 맺으며 챗GPT 검색·탐색 기능 안에 라이선스 사진을 제공하게 됐다. 생성형 AI에 위협받던 콘텐츠 라이선스 업체가 소송과 대립을 넘어 AI 생태계 안에서 새 유통 채널을 찾는 사례로 읽힌다.

ai-ml

크래프톤, AI 반도체 스타트업 하이퍼엑셀에 500억 원 베팅

크래프톤이 국내 AI 반도체 스타트업 하이퍼엑셀의 시리즈B 라운드에 전략적투자자로 참여해 약 500억 원을 투자한다. 게임 속 AI 캐릭터와 개발 자동화를 넘어 로봇, 자율주행 같은 피지컬 AI까지 염두에 둔 인프라 통제 전략으로 읽힌다.

ai-ml

젠슨 황이 KAIST·서울대를 콕 집은 이유, 한국 AI 인재 전쟁이 시작됐다

젠슨 황 엔비디아 CEO가 방한 때 KAIST와 서울대를 직접 언급하며 한국 AI 인재에 대한 관심을 드러냈다. 기사에서는 두 대학 출신 차세대 AI 리더들과 연구자, 창업가, 투자자들을 통해 한국 AI 인재 풀이 왜 글로벌 빅테크의 타깃이 됐는지 짚는다.

ai-ml

스페이스X, 리플렉션AI에 최대 63억 달러 규모 AI 컴퓨팅 빌려준다

스페이스X가 오픈소스 AI 스타트업 리플렉션AI에 2029년까지 대규모 GPU 컴퓨팅을 제공하는 계약을 맺었다. 리플렉션AI는 매달 1억5000만 달러를 내고 멤피스의 콜로서스 데이터센터에 깔린 엔비디아 GB300급 인프라를 쓰게 된다.