본문으로 건너뛰기
피드

AMD MI355X에서 GLM5.2 추론을 블랙웰보다 2배 이상 싸게 굴린 사례

ai-ml 약 8분
vote
0
댓글
북마크

Wafer가 AMD MI355X에서 GLM5.2를 서빙하며 노드당 2626 tok/s, 싱글 스트림 213 tok/s를 달성했다고 공개했다. NVIDIA Blackwell 대비 성능은 일부 낮지만 GPU 비용이 훨씬 낮아 성능 대비 비용에서는 AMD가 유리하다는 주장이다.

  • 1

    MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴하다고 설명됨

  • 2

    20k 입력·1k 출력·60% 캐시 히트율 워크로드에서 2626 tok/s/node와 2.4 rps를 기록함

  • 3

    MXFP4 양자화, sglang 선택, speculative decode 수정, MoE 커널 튜닝이 주요 최적화 포인트였음

AMD 추론이 ‘싸지만 귀찮은 선택지’에서 꽤 현실적인 선택지로 가는 중

  • Wafer가 AMD MI355X에서 GLM5.2 추론을 최적화한 결과를 공개함

    • 20k 입력 토큰, 1k 출력 토큰, 60% 캐시 히트율 워크로드에서 2626 tok/s/node를 기록함
    • 요청률은 2.4 rps였고, TTFT는 5초 이하를 기준으로 잡음
    • 싱글 스트림 기준으로는 10k 입력, 1.5k 출력에서 213 tok/s를 냄
  • 비용 쪽 주장이 핵심임

    • MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴하다고 설명함
    • GLM5.2 워크로드에서 B200 측정 성능의 약 80%까지 갔지만, 비용은 2배 이상 낮다고 주장함
    • Artificial Analysis 리더보드 1등 숫자는 아니어도, 성능 대비 비용으로는 이긴다는 논리임

중요

> 같은 워크로드에서 Blackwell 측정치는 3192 tok/s/node @ 3.0 rps였고, MI355X는 튜닝 후 2626 tok/s/node @ 2.4 rps까지 올라감. 절대 성능보다 ‘달러당 토큰’이 이 글의 진짜 포인트임.

문제는 하드웨어보다 소프트웨어 지원이었음

  • AMD MI350 계열은 실리콘 스펙만 보면 Blackwell과 경쟁할 수 있다고 봄

    • 하지만 NVIDIA는 CUDA 생태계와 day-0 지원이 강함
    • 최신 프론티어 모델이 거의 격주로 나오는데, AMD 쪽은 바로 실행되는 이미지조차 찾기 어려울 때가 있다고 함
    • 그래서 AMD에서는 최신 모델 최적화에 몇 주의 엔지니어링과 컴퓨트가 들어갈 수 있음
  • Wafer는 이 격차가 줄고 있다고 봄

    • 커널과 모델 최적화를 도와주는 에이전트가 좋아지면서 catch-up 시간이 줄어든다는 주장임
    • 이번 GLM5.2 사례에서는 커스텀 커널을 새로 쓰지 않았다고 강조함
    • 프레임워크 버그와 설정, 커널 선택만 잡아도 꽤 올라왔다는 게 메시지임

양자화와 프레임워크 선택부터 갈림

  • GLM-5.2 bf16 모델을 AMD Quark로 MXFP4 양자화함

    • z-ai 공식 FP8 양자화와 비교했을 때 GPQA-Diamond, tau2, GSM8K에서 손실이 없었다고 함
    • 4비트 계열로 줄이면서도 품질 손실이 없었다는 주장이 비용 효율의 출발점임
  • 추론 프레임워크는 vLLM, ATOM, sglang 중 sglang을 골랐음

    • vLLM은 MXFP4 + GlmMoeDsa 경로가 동작하지 않아 MXFP4 가중치 이점이 없었음
    • ATOM은 긴 컨텍스트에서 출력 품질이 망가졌다고 함
    • sglang은 네이티브 지원까지 마찰이 가장 적고, 양자화 이점을 살리면서도 출력이 일관적이었다고 설명함

speculative decode를 켜는 데도 버그 두 개를 밟음

  • 첫 번째 문제는 MTP head의 shared expert가 bf16으로 남아 있어야 하는데, sglang이 MXFP4로 잘못 만들던 것임

    • Quark는 양자화하지 않을 레이어 이름 목록을 갖고 있음
    • 그런데 메인 디코더 스택과 MTP 레이어의 모듈 prefix가 달라 lookup이 실패함
    • 결과적으로 bf16 가중치를 4비트 슬롯에 읽으려다 shape mismatch로 초기화가 터짐
    • 해결은 layer 78 항목을 sglang이 실제로 쓰는 decoder 이름 아래 한 번 더 복사하는 것이었음
  • 두 번째 문제는 깊은 speculative decode에서 CUDA 헤더가 그대로 박혀 있던 것임

    • draft depth 4 이상에 필요한 fused multi-step metadata kernel이 cuda_runtime.h를 include하고 있었음
    • ROCm guard가 없어서 막혔고, USE_ROCM 조건부 처리를 추가해 해결함
  • 이 두 수정 뒤 싱글 스트림 처리량이 크게 뜀

    • speculative decode가 제대로 켜지면서 싱글 스트림 처리량이 거의 3배 가까이 좋아졌다고 함
    • 추가로 --kv-cache-dtype fp8_e4m3, --enable-aiter-allreduce-fusion 같은 설정도 사용함

aggregate throughput은 prefill 병목을 따로 봐야 했음

  • 싱글 스트림 최적화만으로는 20k 입력 워크로드를 해결할 수 없었음

    • 20k 입력에 60% 캐시 히트율이면 디코딩보다 prefill이 더 큰 병목임
    • TP8 구성에서는 GLM5.2-MXFP4가 1461 tok/s/node에 그침
  • 병렬화 구성을 TP4×DP2로 바꾸자 처리량이 크게 올랐음

    • 2.0 rps에서 1944 tok/s/node까지 상승함
    • 그래도 Blackwell의 3192 tok/s/node @ 3.0 rps보다는 느렸음
  • 마지막 병목은 GLM-5.2 fp4 MoE 커널 선택이었음

    • sglang 이미지에서 fp4 MoE가 느린 FlyDSL heuristic fallback으로 조용히 빠지고 있었음
    • aiter가 a8w8/fp8 경로에만 튜닝 설정을 제공했기 때문이라고 설명함
    • Wafer가 GLM fp4 shape에 맞춰 MoE 커널 선택을 직접 튜닝함
    • shape는 model_dim 6144, moe_inter 2048, E=256, topk=8로 언급됨

ℹ️참고

> 결론은 “AMD가 무조건 빠르다”가 아님. 최신 모델을 AMD에서 잘 굴리려면 아직 프레임워크와 커널 경로를 직접 확인해야 하지만, 그 마찰이 예전보다 훨씬 줄고 있다는 쪽에 가까움.


기술 맥락

  • 이 글의 핵심 선택은 NVIDIA Blackwell 대신 AMD MI355X에서 최신 MoE 모델을 비용 효율적으로 서빙하는 거예요. 추론 수요가 폭증하면서 GPU 단가가 중요해졌고, 절대 성능보다 달러당 처리량이 더 중요한 워크로드가 많아졌기 때문이에요.

  • MXFP4 양자화를 먼저 잡은 이유는 메모리와 연산 비용을 동시에 낮춰야 했기 때문이에요. 다만 양자화는 품질 손실이 나면 의미가 없어서, GPQA-Diamond, tau2, GSM8K에서 손실이 없었다는 검증이 같이 붙어야 설득력이 생겨요.

  • sglang을 고른 건 프레임워크 선택이 성능만의 문제가 아니라 지원 경로의 문제였기 때문이에요. vLLM은 필요한 MXFP4 경로가 없었고, ATOM은 긴 컨텍스트 품질이 흔들렸으니, 덜 막히는 쪽을 고르는 게 더 현실적인 선택이었어요.

  • TP8에서 TP4×DP2로 바꾼 대목은 워크로드를 보고 병렬화 전략을 바꿔야 한다는 걸 보여줘요. 싱글 스트림 디코딩에 좋은 구성이 긴 입력 prefill 중심 트래픽에서도 좋은 건 아니거든요.

  • 마지막 MoE 커널 튜닝은 AMD 생태계의 현재 위치를 잘 보여줘요. 하드웨어가 부족해서가 아니라, 특정 모델 shape에 맞는 튜닝 설정이 빠져서 느린 fallback으로 떨어졌고, 그걸 찾아내자 처리량이 확 올라갔어요.

‘CUDA 해자가 무너진다’는 말을 숫자와 삽질 로그로 보여주는 글에 가깝다. AMD 추론은 아직 day-0 경험이 매끄럽지 않지만, 프레임워크 버그 몇 개와 커널 선택만 잡아도 비용 효율이 꽤 현실적인 수준까지 올라온다는 게 포인트임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장

바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.

ai-ml

중국에서 ‘1인 창업자+AI’ 모델 급증…1인 기업 1600만개 돌파

중국에서 AI를 디지털 직원처럼 활용하는 1인 기업이 빠르게 늘고 있다. 코트라에 따르면 지난해 6월 기준 중국 1인 유한책임회사는 1600만개를 넘었고, 지난해 상반기 신규 등록 1인 기업은 약 290만개로 전년 대비 47% 증가했다.

ai-ml

구글 agents-cli로 AI 에이전트 제작·평가·배포 흐름 가져다 쓰기

구글의 agents-cli는 코딩 에이전트 자체가 아니라, 기존 코딩 도구에 에이전트 제작·평가·배포 절차를 붙여주는 CLI다. 같은 글에서는 Anthropic Fable 5 재개, 구글 DESIGN.md를 활용한 AI 디자인 맥락 주입 방식도 함께 다뤘고, 특히 프로덕션에서는 맥락을 통째로 넣는 방식보다 필요한 부분만 불러오는 방식이 더 유리할 수 있다는 점이 핵심이다.

ai-ml

미스트랄, Lean 증명 특화 모델 ‘Leanstral 1.5’ 공개

미스트랄이 Lean 4 기반 증명·검증 작업에 특화된 Leanstral 1.5를 공개했다. 119B 전체 파라미터 중 6B만 활성화되는 구조로, miniF2F 100%, PutnamBench 587/672, FATE-H 87%, FATE-X 34% 같은 성적을 냈다.

ai-ml

메타가 AI 인프라를 팔기 시작하면, 국내 클라우드 기업 가치도 다시 보일까

메타가 자체 구축한 GPU와 데이터센터를 외부에 판매하는 클라우드 사업을 검토하면서, AI 설비투자가 단순 비용이 아니라 수익 자산이 될 수 있다는 분석이 나왔어. 국내에서는 네이버와 삼성SDS 같은 클라우드 관련 기업의 가치가 재평가될 수 있다는 전망이 붙었지만, 글로벌 CSP와 같은 논리를 그대로 적용하긴 어렵다는 지적도 같이 나왔어.