PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기
Photoroom이 H200 GPU 32장, $1,500 예산으로 text-to-image diffusion 모델을 24시간 안에 훈련시킨 스피드런. X-prediction으로 VAE 없이 픽셀 공간 직접 훈련, TREAD 토큰 라우팅, REPA, perceptual loss 등 최적화 기법을 총동원한 실전 레시피를 코드와 함께 오픈소스로 공개함.
- 1
H200 GPU 32장, 총 $1,500 컴퓨팅 비용으로 24시간 훈련 완료
- 2
X-prediction으로 VAE 없이 픽셀 공간에서 직접 훈련, 패치 사이즈 32
- 3
LPIPS(0.1) + DINOv2(0.01) perceptual loss를 flow matching 위에 추가
- 4
TREAD로 50% 토큰 라우팅하여 연산량 절감, self-guidance로 CFG 품질 유지
- 5
합성 데이터셋 870만 장으로 훈련, 코드 전체 오픈소스 공개
수백만 달러가 들던 diffusion 모델 훈련이 엔지니어링 최적화만으로 $1,500 수준까지 내려옴. 개별적으로 검증된 트릭들을 체계적으로 조합하면 소규모 팀도 경쟁력 있는 이미지 생성 모델을 만들 수 있다는 것을 실증한 사례.
관련 기사
AI 코딩의 선(禪) - 에이전트 코딩 시대의 원칙들
Zen of Python에서 영감을 받아 정리한 에이전트 코딩 16가지 원칙. 코드의 한계비용이 0에 수렴하면서 개발자 역할이 코드 작성에서 문제 프레이밍, 피드백 루프 설계, 실패 모드 예측으로 이동하고 있음을 설명함.
ChatGPT를 쓰면 뇌에 무슨 일이 생길까: AI 보조 도구의 인지 부채
MIT 미디어랩 연구에서 LLM 사용자가 4개월간 뇌 연결성, 언어 능력, 행동 수준 모두에서 도구 미사용 그룹보다 낮은 성과를 보임. LLM 의존이 인지 부채를 축적시킨다는 경고
OpenAI, 과학 벤치마크 'FrontierScience' 공개
OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.
댓글
댓글
댓글을 불러오는 중...