---
title: "Mac Studio 4대로 1.5TB VRAM 클러스터 구축 — RDMA over Thunderbolt 5 실측"
published: 2025-12-18T22:23:09.000Z
canonical: https://jeff.news/article/1011
---
# Mac Studio 4대로 1.5TB VRAM 클러스터 구축 — RDMA over Thunderbolt 5 실측

Jeff Geerling이 M3 Ultra Mac Studio 4대(총 1.5TB 메모리, ~$40K)로 RDMA over Thunderbolt 5를 테스트. Exo 1.0으로 1조 파라미터 Kimi K2 모델을 ~30 tok/s로 구동함.

## 무슨 구성인가

- Apple이 Jeff Geerling에게 **Mac Studio 4대**(M3 Ultra)를 빌려줬고, macOS 26.2의 새 기능인 **RDMA over Thunderbolt 5**를 테스트함
- 아래 2대가 512GB 유니파이드 메모리($11,699), 위 2대가 256GB($8,099)로, 총 **1.5TB 메모리에 약 $40,000** 구성임
- Nvidia DGX Spark이나 AMD AI Max+ 395는 최대 128GB인데, 단일 Mac Studio 하나가 이 두 시스템 **4대분**과 맞먹는 수준임

## 싱글 노드 벤치마크부터 인상적

- Geekbench에서 M3 Ultra가 2세대 전 CPU 코어임에도 GB10, AI Max+ 395를 싱글/멀티 모두 이김
- **FP64 HPL 벤치마크에서 1 Tflop 돌파** — 소형 데스크톱 중 최초임. Nvidia GB10의 거의 2배, AMD는 상대가 안 됨
- 유휴 전력이 **10W 미만**이라는 게 충격적. 어떤 SBC(싱글보드 컴퓨터)보다 낮음
- 단일 M3 Ultra가 Framework Desktop 클러스터 전체보다 빠르면서 전력은 절반임

## RDMA가 가져온 차이

- RDMA 활성화는 복구 모드 부팅 후 `rdma_ctl enable` 명령 실행으로 가능
- RDMA 없이 메모리 접근 레이턴시가 300μs였던 게 **50μs 미만**으로 떨어짐
- **Exo 1.0**(오픈소스 AI 클러스터링 툴)이 RDMA를 지원하는 유일한 소프트웨어로, Apache 2.0 라이선스로 출시됨
- llama.cpp는 RPC 방식으로 레이어를 분산하는데, 노드 추가할수록 오히려 성능이 떨어짐. 반면 Exo는 노드 추가 시 **성능이 선형에 가깝게 올라감**

## 실제 모델 돌려본 결과

- **Qwen3 235B**: Exo로 풀 클러스터 시 **32 tok/s** 달성
- **DeepSeek V3.1** (671B 파라미터): 클러스터에서 구동 가능
- **Kimi K2 Thinking** (1조 파라미터, 600GB+): 단일 머신으로는 불가능한 모델인데 클러스터에서 **~30 tok/s**로 돌아감

> [!IMPORTANT]
> 1조 파라미터 모델을 $40K짜리 데스크톱 클러스터에서 30 tok/s로 돌린다는 게 핵심. 불과 몇 년 전만 해도 상상하기 어려운 수치임.

## 아직 남은 문제들

- RDMA over Thunderbolt은 아직 초기 단계라 **안정성이 불안함**. HPL을 Thunderbolt으로 돌리면 Mac이 크래시 후 리부팅되는 일도 있었음
- Thunderbolt 5 스위치가 **존재하지 않아서** Mac끼리 1:1로 전부 연결해야 함. 현재 최대 4대 제한
- macOS 클러스터 관리가 리눅스보다 훨씬 번거로움. SSH로 시스템 업그레이드가 불가능해서 GUI를 통해야 함
- Exo 개발진이 한동안 잠수를 타서 신뢰 문제도 있고, Apple과 밀접하게 일하면서 비밀주의로 개발한 것도 아쉬운 점
- M5 Ultra가 나오면 ML 성능이 훨씬 좋아질 텐데 아직 소식이 없고, Thunderbolt 대신 QSFP 포트가 있으면 클러스터 확장성이 극적으로 개선될 거라는 의견

## 핵심 포인트

- RDMA로 메모리 접근 레이턴시 300μs → 50μs 미만
- Exo 1.0이 RDMA 지원하는 유일한 클러스터링 도구
- 1조 파라미터 모델을 데스크톱 클러스터에서 30 tok/s
- M3 Ultra 싱글이 DGX Spark/AI Max+ 395 4대분
- TB5 스위치 부재로 최대 4대 제한, 안정성 아직 미흡

## 인사이트

Apple Silicon의 유니파이드 메모리와 RDMA가 만나면서 로컬 LLM 추론의 현실적 대안이 되고 있음. 다만 TB5 인프라의 한계가 명확.
