---
title: "혼자서 DGX Spark 하나로 GPT-OSS 20B 비전 모델을 만든 이야기"
published: 2026-02-19T22:54:33.000Z
canonical: https://jeff.news/article/1045
---
# 혼자서 DGX Spark 하나로 GPT-OSS 20B 비전 모델을 만든 이야기

솔로 개발자가 두바이 호텔 방에서 DGX Spark 한 대로 GPT-OSS 20B에 비전 기능을 붙인 VLM PoC. PseudoDeepStack이라는 멀티스케일 비주얼 피처 방식과 MoE에서 프로젝터 온리 학습이 실패하는 이유를 최초 문서화.

## 뭘 만든 건지

- Vincent Kaufmann이라는 솔로 개발자가 **두바이 호텔 방에서 NVIDIA DGX Spark 한 대**로 GPT-OSS 20B에 비전(Vision) 기능을 붙인 VLM(Vision-Language Model)을 학습시킨 프로젝트임
- 아직 전체 학습의 22%(9,000/40,461 스텝)만 진행된 PoC(Proof of Concept) 단계인데, 이 시점에서도 이미지 속 객체/장면/공간 관계 인식이 가능하고, 여러 문장으로 된 일관된 설명을 생성함
- 물론 환각(hallucination)도 있고 세밀한 디테일은 놓치는데, 학습 22% 시점이면 당연한 거임

## PseudoDeepStack — 핵심 아키텍처

- 일반적인 VLM은 비전 인코더의 **마지막 레이어만** 쓰는데, 이 프로젝트는 SigLIP-SO400M의 27개 트랜스포머 레이어 중 **9번(저수준), 18번(중수준), 27번(고수준)** 세 레이어에서 피처를 뽑아서 합침
- 각각 엣지/텍스처 → 형태/부분 → 의미론적 이해를 담당하는 거라, 최종적으로 729개 비주얼 토큰 각각이 세 스케일의 정보를 동시에 가지게 됨
- 추론 비용 추가 없이(토큰 수 동일) 더 풍부한 시각 표현을 얻는 방식이라 효율적임. Qwen3-VL의 DeepStack에서 영감을 받았지만 프리징/양자화된 LLM에서도 작동하도록 설계함

## MoE 아키텍처에서의 핵심 발견

> [!IMPORTANT]
> MoE(Mixture-of-Experts) 모델에서는 프로젝터만 학습하는 방식이 작동하지 않음. 비주얼 토큰이 사전학습된 expert 라우팅을 우회하면서 비일관적인 출력이 나오기 때문임. **QLoRA로 어텐션 레이어를 적응**시켜야 라우터가 새 모달리티를 처리하는 법을 배움.

- 이건 MoE 기반 VLM을 만들려는 커뮤니티에 꽤 유용한 발견임. 프로젝터 온리로 삽질하는 시간을 아껴줌

## InternVL과의 비교

- 상하이 AI 연구소의 InternVL3.5-GPT-OSS-20B-A4B는 **수십 명의 연구원 + 대규모 A100 클러스터 + 수개월 개발 + 4단계 파이프라인(강화학습 포함)**으로 만들어진 모델임. 그것도 아직 Preview
- 이 프로젝트는 **1명, DGX Spark 1대, 7일**로 비교 가능한 마일스톤에 도달함. 전체 모델 파라미터의 ~2%만 학습한 것
- 물론 직접 비교는 무리지만, 하드웨어 제약이 아키텍처 혁신을 이끈다는 좋은 사례임

## 로드맵과 한계

- 남은 학습(~31,000 스텝)에 Spark 기준 11일 더 필요하고, 이후 GPT-OSS-120B로 스케일업 계획
- 현재 한계: 환각, 이미지 내 텍스트/카운팅 부정확, 단일 이미지만 지원, 고정 384x384 해상도
- 라이선스는 Apache 2.0이고 GPU 컴퓨트 후원을 받고 있음

## 핵심 포인트

- PseudoDeepStack: 비전 인코더 3개 레이어에서 피처 추출하여 합침, 추론 비용 추가 없음
- MoE 모델은 프로젝터만 학습하면 안 되고 QLoRA로 어텐션 레이어 적응 필요
- 1명+DGX Spark 1대+7일로 수십 명+A100 클러스터 팀과 비교 가능한 마일스톤 달성
- 전체 파라미터의 ~2%만 학습

## 인사이트

하드웨어 제약이 아키텍처 혁신을 이끈 좋은 사례. MoE VLM에서 프로젝터 온리가 왜 안 되는지에 대한 최초 문서화는 커뮤니티에 실질적 기여.
