---
title: "파인튜닝 서비스 벤치마크 — Tinker vs Together AI vs Nebius, 비용·속도·워크플로우 완전 비교"
published: 2026-03-31T17:09:33.000Z
canonical: https://jeff.news/article/1438
---
# 파인튜닝 서비스 벤치마크 — Tinker vs Together AI vs Nebius, 비용·속도·워크플로우 완전 비교

합성 데이터 생성 파이프라인을 테스트 케이스로 Tinker, Together AI, Nebius Token Factory 세 플랫폼의 파인튜닝 서비스를 비용, 속도, UX, 모델 가용성, 배포 관점에서 비교. Tinker는 최저 비용, Together AI는 최고 속도, Nebius는 가장 통합된 워크플로우가 강점.

## 왜 파인튜닝 서비스인가

- 모델이 곧 제품인 시대에, SFT/RL을 통한 특화가 범용 모델과 코딩 에이전트·헬스케어 추론기·금융 분석기를 구분짓는 핵심임
  - 하지만 프론티어 랩 바깥에서는 파인튜닝 성공 사례가 드문 게 현실
  - GPU 클러스터 프로비저닝, 분산 학습 디버깅, 무음 실패하는 장시간 학습 등 인프라 부담이 원인
- Tinker(Mira Murati의 Thinking Machines), Nebius Token Factory, Together AI, Fireworks, Prime Intellect 등이 관리형 파인튜닝 플랫폼으로 등장
  - Cursor도 Fireworks에 RL 학습을 맡겨서 Composer-2를 만들었을 정도로 모듈화 진행 중

## 벤치마크 설계

- 테스트 케이스: 합성 데이터 생성 파이프라인 SYNTH의 에이전틱 확장
  - 9,415개 학습 데이터, 총 30M 토큰, Wikipedia 기반 시드 + 도구 호출 시퀀스 생성
  - 4가지 실험: Qwen 3 30B MoE, GPT OSS 120B MoE, Qwen 3 8B Dense, Llama3 70B Dense
  - 평가 축: 서비스 범위, UI/인프라 품질, 비용 대비 성능, 모델 가용성, 파인튜닝 모델 배포

## 플랫폼별 비교 결과

- **Tinker** (Thinking Machines Lab, Mira Murati 설립)
  - 최저 비용이 압도적 장점 — Qwen 3 30B LoRA가 $10.80 (Nebius $84.85, Together $46.00)
  - 대신 사실상 "원격 GPU에서 로컬 코드 실행"에 가까움 — 학습 루프, 데이터 핸들링, 추론 전부 사용자 몫
  - 비용/시간 예측 없음, W&B 연동 없음, 풀 파인튜닝 미지원, 추론/배포 미지원
  - 속도는 가장 느림 (Qwen 3 8B 기준 220분 vs Nebius 18분, Together 15분)

- **Together AI**
  - 가장 빠른 학습 속도 — Qwen 3 8B LoRA 15분, 33,330 tokens/s
  - API + GUI 모두 제공, W&B 연동, HuggingFace 자동 업로드, LoRA/풀 파인튜닝/SFT/RL 지원
  - 비용은 중간~상위 — 학습 전 예상 비용 표시가 유용
  - 서버리스 추론 가용성이 모델별로 다르고, 배치 추론 템플릿이 유연하지 않음

- **Nebius Token Factory**
  - 가장 통합된 워크플로우 — Data Lab(데이터셋 분석/검증), 원클릭 추론 배포, 유연한 입력 형식
  - 학습 속도는 Together AI와 비슷한 수준, 비용은 약간 저렴
  - 120 tokens/s 추론 속도(Llama3 70B), 131K 토큰 컨텍스트 윈도우에서도 안정적
  - EU/US 데이터 규정 준수 보장

| 실험 | Nebius 시간 | Tinker 시간 | Together 시간 | Nebius 비용 | Tinker 비용 | Together 비용 |
|------|-----------|-----------|-------------|-----------|-----------|-------------|
| Qwen3 30B MoE | 76분 | 166분 | 28분 | $84.85 | $10.80 | $46.00 |
| GPT OSS 120B MoE | 18분 | 204분 | - | $147.83 | $15.55 | $147.83 |
| Qwen3 8B Dense | 18분 | 220분 | 15분 | $12.12 | $12.12 | $14.51 |
| Llama3 70B Dense | 56분 | - | - | $83.74 | $94.80 | $87.87 |

## MoE 파인튜닝의 현실적 어려움

- MoE가 추론 비용 대비 데이터 품질에서 이론적으로 유리하지만 실제 파인튜닝은 훨씬 어려움
  - 대부분의 파인튜닝 라이브러리가 MoE에 부적합, LoRA 지원이 실험적
  - 전체 가중치를 메모리에 올려야 하고, 각 전문가(expert)가 토큰을 적게 보므로 데이터가 더 많이 필요
  - 관리형 플랫폼의 진짜 가치: MoE든 Dense든 사용자에겐 차이가 없음 — 아키텍처 복잡성을 추상화해줌
- 반면 Dense 모델의 SOTA 베이스가 노후화 중
  - 12B 이하 최고 베이스(Qwen 3, Gemma 3)가 9개월 이상 전 릴리스, Llama 3은 거의 2년 전

## 핵심 결론

- 파인튜닝 서비스가 충분히 성숙해서 AI 인프라의 핵심 레이어가 됨
  - 몇 달 전만 해도 WIP였지만, 이제 핵심 약속이 실제로 이행됨
  - 홈 클러스터보다 학습 속도가 빠르고, 비용도 점점 투명해지는 중
- 하지만 진짜 병목은 하이퍼파라미터가 아니라 **데이터**
  - 학습 데이터를 검사하고, 파인튜닝 모델 출력을 평가하고, 생성과 학습을 순환시키는 "데이터 레이어" 지원 수준에서 플랫폼이 갈림
  - Nebius가 Data Lab + 원클릭 추론 배포로 이 부분에서 가장 앞서 있다는 평가

---

## 기술 맥락

- 이 벤치마크가 왜 주목할 만하냐면, SYNTH라는 실제 합성 데이터 파이프라인을 테스트 케이스로 썼기 때문이에요. "MMLU 점수 올리기" 같은 인공적 평가가 아니라, 도구 호출 시퀀스를 생성하는 에이전틱 워크로드라서 실무에 가까움
- Dense vs MoE 파인튜닝 비용 차이가 재밌는데, MoE가 추론에서는 활성 파라미터만 써서 저렴하지만, 학습에서는 전체 파라미터를 다 업데이트해야 해서 Dense보다 비쌀 수 있어요. 관리형 플랫폼이 이 복잡성을 숨겨주는 게 실질적 가치
- Cursor가 Fireworks에 RL 학습을 맡겼다는 건 "학습 인프라의 모듈화"가 이미 현실이라는 증거예요. 제품 회사가 반드시 자체 학습 인프라를 가질 필요가 없어지는 흐름이고, 이건 한국 AI 스타트업에도 직접적으로 적용 가능한 전략

## 핵심 포인트

- Tinker: Qwen3 30B LoRA $10.80 (최저 비용) but 가장 느리고 UX 최소
- Together AI: Qwen3 8B 15분 (최고 속도), API+GUI, W&B 연동
- Nebius: Data Lab + 원클릭 배포로 가장 통합된 데이터 중심 워크플로우
- MoE 파인튜닝의 현실적 어려움 — 관리형 플랫폼이 이를 추상화
- 진짜 병목은 인프라가 아니라 데이터 품질과 검사 도구

## 인사이트

파인튜닝 서비스가 드디어 실용적 단계에 진입. Cursor가 Fireworks에 RL을 맡기듯, 학습 인프라의 모듈화가 현실이 됨. 한국 AI 팀에게도 직접적으로 적용 가능한 전략.