PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기

ai 2026-03-03 약 5분

 tags

#diffusion #image-generation #training #optimization #open-source

vote

북마크

Photoroom이 H200 GPU 32장, $1,500 예산으로 text-to-image diffusion 모델을 24시간 안에 훈련시킨 스피드런. X-prediction으로 VAE 없이 픽셀 공간 직접 훈련, TREAD 토큰 라우팅, REPA, perceptual loss 등 최적화 기법을 총동원한 실전 레시피를 코드와 함께 오픈소스로 공개함.

1
H200 GPU 32장, 총 $1,500 컴퓨팅 비용으로 24시간 훈련 완료
2
X-prediction으로 VAE 없이 픽셀 공간에서 직접 훈련, 패치 사이즈 32
3
LPIPS(0.1) + DINOv2(0.01) perceptual loss를 flow matching 위에 추가
4
TREAD로 50% 토큰 라우팅하여 연산량 절감, self-guidance로 CFG 품질 유지
5
합성 데이터셋 870만 장으로 훈련, 코드 전체 오픈소스 공개

Photoroom이 H200 GPU 32장으로 text-to-image 모델을 24시간 안에 훈련시킨 스피드런 결과를 공개함. 총 컴퓨팅 비용은 약 $1,500(GPU당 시간당 $2). Part 1, Part 2에서 검증한 트릭들을 전부 합쳐서 실전 레시피를 만든 것이 핵심임.

핵심 아키텍처: 픽셀 스페이스 직접 훈련

X-prediction 방식을 사용해서 VAE 없이 픽셀 공간에서 직접 훈련함. 디코더가 필요 없으니 파이프라인이 훨씬 깔끔해짐
패치 사이즈 32, 초기 토큰 프로젝션에 256차원 보틀넥을 둬서 시퀀스 길이를 관리함. 512px에서 시퀀스 길이 256, 1024px에서 1024
보통 256px -> 512px -> 1024px 순서로 올리는데, 여기서는 512px부터 바로 시작해서 1024px로 파인튜닝하는 전략을 씀

Perceptual Loss와 토큰 라우팅

LPIPS(가중치 0.1) + DINOv2 기반 perceptual loss(가중치 0.01)를 flow matching 목적함수 위에 추가함. 풀 이미지를 풀링해서 모든 노이즈 레벨에 적용
TREAD 토큰 라우팅으로 50%의 토큰이 2번째~끝에서 두 번째 블록을 건너뛰게 해서 연산량을 절감함
라우팅된 모델은 vanilla CFG에서 품질이 떨어질 수 있어서, dense vs. routed conditional prediction을 사용하는 self-guidance 방식을 적용함

학습 세부 설정

REPA로 representation alignment 적용. DINOv3를 teacher로, 8번째 transformer 블록에서 alignment loss 가중치 0.5로 설정
옵티마이저는 Muon(FSDP 구현)을 2D 파라미터에, 나머지(bias, norm, embedding 등)는 Adam 사용
훈련 데이터는 합성 데이터셋 3개 합쳐서 약 870만 장: Flux generated(170만), FLUX-Reason-6M(600만), midjourney-v6-llava(100만, Gemini 1.5로 재캡셔닝)
스케줄: 512px에서 100k 스텝(배치 1024) -> 1024px에서 20k 스텝(배치 512, REPA 없이). EMA smoothing 0.999, 업데이트 간격 10

결과

24시간 훈련치고 상당히 쓸 만한 수준이 나옴. 프롬프트 팔로잉이 강하고 전반적인 미학적 일관성도 있음
텍스처 글리치, 간헐적인 해부학 오류 등 아직 결함이 있지만, 구조적 문제가 아니라 언더트레이닝 아티팩트로 판단됨. 데이터와 컴퓨팅을 더 넣으면 예측 가능하게 개선될 것으로 봄
코드 전체 오픈소스로 공개: github.com/Photoroom/PRX

불과 몇 년 전만 해도 경쟁력 있는 diffusion 모델 훈련에 수백만 달러가 들었는데, 이제 $1,500이면 쓸 만한 모델이 나오는 시대가 됨. 엔지니어링 최적화가 얼마나 중요한지 보여주는 사례임.

수백만 달러가 들던 diffusion 모델 훈련이 엔지니어링 최적화만으로 $1,500 수준까지 내려옴. 개별적으로 검증된 트릭들을 체계적으로 조합하면 소규모 팀도 경쟁력 있는 이미지 생성 모델을 만들 수 있다는 것을 실증한 사례.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai 2026-03-03

AI 코딩의 선(禪) - 에이전트 코딩 시대의 원칙들

Zen of Python에서 영감을 받아 정리한 에이전트 코딩 16가지 원칙. 코드의 한계비용이 0에 수렴하면서 개발자 역할이 코드 작성에서 문제 프레이밍, 피드백 루프 설계, 실패 모드 예측으로 이동하고 있음을 설명함.

ai 2026-01-21

ChatGPT를 쓰면 뇌에 무슨 일이 생길까: AI 보조 도구의 인지 부채

MIT 미디어랩 연구에서 LLM 사용자가 4개월간 뇌 연결성, 언어 능력, 행동 수준 모두에서 도구 미사용 그룹보다 낮은 성과를 보임. LLM 의존이 인지 부채를 축적시킨다는 경고

ai 2025-12-20

OpenAI, 과학 벤치마크 'FrontierScience' 공개

OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.

PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기

요약

핵심 포인트

분석

핵심 아키텍처: 픽셀 스페이스 직접 훈련

Perceptual Loss와 토큰 라우팅

학습 세부 설정

결과

인사이트

댓글

댓글

PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기

요약

핵심 포인트

분석

핵심 아키텍처: 픽셀 스페이스 직접 훈련

Perceptual Loss와 토큰 라우팅

학습 세부 설정

결과

인사이트

댓글

댓글

관련 기사