본문으로 건너뛰기
피드

Mac Studio 4대로 1.5TB VRAM 클러스터 구축 — RDMA over Thunderbolt 5 실측

devops 약 4분
vote
0
댓글
북마크

Jeff Geerling이 M3 Ultra Mac Studio 4대(총 1.5TB 메모리, ~$40K)로 RDMA over Thunderbolt 5를 테스트. Exo 1.0으로 1조 파라미터 Kimi K2 모델을 ~30 tok/s로 구동함.

  • 1

    RDMA로 메모리 접근 레이턴시 300μs → 50μs 미만

  • 2

    Exo 1.0이 RDMA 지원하는 유일한 클러스터링 도구

  • 3

    1조 파라미터 모델을 데스크톱 클러스터에서 30 tok/s

  • 4

    M3 Ultra 싱글이 DGX Spark/AI Max+ 395 4대분

  • 5

    TB5 스위치 부재로 최대 4대 제한, 안정성 아직 미흡

무슨 구성인가

  • Apple이 Jeff Geerling에게 Mac Studio 4대(M3 Ultra)를 빌려줬고, macOS 26.2의 새 기능인 RDMA over Thunderbolt 5를 테스트함
  • 아래 2대가 512GB 유니파이드 메모리($11,699), 위 2대가 256GB($8,099)로, 총 1.5TB 메모리에 약 $40,000 구성임
  • Nvidia DGX Spark이나 AMD AI Max+ 395는 최대 128GB인데, 단일 Mac Studio 하나가 이 두 시스템 4대분과 맞먹는 수준임

싱글 노드 벤치마크부터 인상적

  • Geekbench에서 M3 Ultra가 2세대 전 CPU 코어임에도 GB10, AI Max+ 395를 싱글/멀티 모두 이김
  • FP64 HPL 벤치마크에서 1 Tflop 돌파 — 소형 데스크톱 중 최초임. Nvidia GB10의 거의 2배, AMD는 상대가 안 됨
  • 유휴 전력이 10W 미만이라는 게 충격적. 어떤 SBC(싱글보드 컴퓨터)보다 낮음
  • 단일 M3 Ultra가 Framework Desktop 클러스터 전체보다 빠르면서 전력은 절반임

RDMA가 가져온 차이

  • RDMA 활성화는 복구 모드 부팅 후 rdma_ctl enable 명령 실행으로 가능
  • RDMA 없이 메모리 접근 레이턴시가 300μs였던 게 50μs 미만으로 떨어짐
  • Exo 1.0(오픈소스 AI 클러스터링 툴)이 RDMA를 지원하는 유일한 소프트웨어로, Apache 2.0 라이선스로 출시됨
  • llama.cpp는 RPC 방식으로 레이어를 분산하는데, 노드 추가할수록 오히려 성능이 떨어짐. 반면 Exo는 노드 추가 시 성능이 선형에 가깝게 올라감

실제 모델 돌려본 결과

  • Qwen3 235B: Exo로 풀 클러스터 시 32 tok/s 달성
  • DeepSeek V3.1 (671B 파라미터): 클러스터에서 구동 가능
  • Kimi K2 Thinking (1조 파라미터, 600GB+): 단일 머신으로는 불가능한 모델인데 클러스터에서 ~30 tok/s로 돌아감

중요

> 1조 파라미터 모델을 $40K짜리 데스크톱 클러스터에서 30 tok/s로 돌린다는 게 핵심. 불과 몇 년 전만 해도 상상하기 어려운 수치임.

아직 남은 문제들

  • RDMA over Thunderbolt은 아직 초기 단계라 안정성이 불안함. HPL을 Thunderbolt으로 돌리면 Mac이 크래시 후 리부팅되는 일도 있었음
  • Thunderbolt 5 스위치가 존재하지 않아서 Mac끼리 1:1로 전부 연결해야 함. 현재 최대 4대 제한
  • macOS 클러스터 관리가 리눅스보다 훨씬 번거로움. SSH로 시스템 업그레이드가 불가능해서 GUI를 통해야 함
  • Exo 개발진이 한동안 잠수를 타서 신뢰 문제도 있고, Apple과 밀접하게 일하면서 비밀주의로 개발한 것도 아쉬운 점
  • M5 Ultra가 나오면 ML 성능이 훨씬 좋아질 텐데 아직 소식이 없고, Thunderbolt 대신 QSFP 포트가 있으면 클러스터 확장성이 극적으로 개선될 거라는 의견

Apple Silicon의 유니파이드 메모리와 RDMA가 만나면서 로컬 LLM 추론의 현실적 대안이 되고 있음. 다만 TB5 인프라의 한계가 명확.

댓글

댓글

댓글을 불러오는 중...

devops

포드가 AI 데이터센터 붐 수혜주로 뜬 이유는 자동차가 아니라 ESS였다

포드의 에너지 저장 사업이 AI 데이터센터 건설 붐을 타고 새 성장축으로 주목받고 있어. 전기차 수요 둔화로 남는 배터리 생산능력을 데이터센터·전력망용 ESS로 돌리는 전략이고, EDF 북미 사업체에 2028년부터 연간 4기가와트시 규모 공급 계약까지 체결했어.

devops

클라우드 빅3 차별화 논쟁, 정작 컴퓨트·스토리지는 거의 범용재가 됐다는 얘기

클라우드 업체들은 인공지능, 데이터베이스, 전용 서비스로 차별화를 강조하지만, 대부분의 기업 워크로드는 여전히 컴퓨트와 스토리지 위에서 돌아간다는 주장이다. AWS, 애저, 구글 클라우드의 핵심 인프라는 성숙도가 높아져 실질 역량 차이가 줄었고, 아키텍트는 브랜드보다 워크로드 적합성·비용·거버넌스·운영 정합성을 봐야 한다는 내용이다.

devops

DynIP, RFC 2136·IPv6·DNSSEC 지원하는 동적 DNS 서비스 공개

DynIP는 홈랩, 엣지 라우터, 인프라 팀을 겨냥한 동적 DNS(DDNS) 서비스다. 60초 안팎의 전파, RFC 2136 TSIG 기반 라우터 업데이트, 개인 도메인 연결, IPv6와 DNSSEC 지원을 핵심 기능으로 내세운다.

devops

깃허브 액션, 내부 데이터베이스 마이그레이션 여파로 4시간 지연

깃허브에서 2026년 5월 12일 13:41부터 17:43 협정세계시까지 일부 서비스 처리 지연이 발생했음. 내부 데이터베이스 마이그레이션으로 복제 지연이 생겼고, 작업 큐에 쌓이는 요청을 처리할 워커가 부족해진 게 원인이었음.

devops

AI 강국 경쟁, 결국 전기와 데이터센터 싸움으로 간다

AI 경쟁의 핵심이 모델과 반도체만이 아니라 안정적인 전력 확보로 이동하고 있다는 분석이야. 글로벌 데이터센터 전력 사용량은 2024년 400TWh에서 2030년 800TWh, 2050년 3500TWh 이상으로 커질 전망이고, 한국도 AI 데이터센터와 에너지 전략을 같이 설계해야 하는 상황이야.