AMD MI355X에서 GLM5.2 추론을 블랙웰보다 2배 이상 싸게 굴린 사례
Wafer가 AMD MI355X에서 GLM5.2를 서빙하며 노드당 2626 tok/s, 싱글 스트림 213 tok/s를 달성했다고 공개했다. NVIDIA Blackwell 대비 성능은 일부 낮지만 GPU 비용이 훨씬 낮아 성능 대비 비용에서는 AMD가 유리하다는 주장이다.
- 1
MI355X는 B300 대비 GPU당 평균 약 2.75배 저렴하다고 설명됨
- 2
20k 입력·1k 출력·60% 캐시 히트율 워크로드에서 2626 tok/s/node와 2.4 rps를 기록함
- 3
MXFP4 양자화, sglang 선택, speculative decode 수정, MoE 커널 튜닝이 주요 최적화 포인트였음
‘CUDA 해자가 무너진다’는 말을 숫자와 삽질 로그로 보여주는 글에 가깝다. AMD 추론은 아직 day-0 경험이 매끄럽지 않지만, 프레임워크 버그 몇 개와 커널 선택만 잡아도 비용 효율이 꽤 현실적인 수준까지 올라온다는 게 포인트임.
관련 기사
바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장
바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.
중국에서 ‘1인 창업자+AI’ 모델 급증…1인 기업 1600만개 돌파
중국에서 AI를 디지털 직원처럼 활용하는 1인 기업이 빠르게 늘고 있다. 코트라에 따르면 지난해 6월 기준 중국 1인 유한책임회사는 1600만개를 넘었고, 지난해 상반기 신규 등록 1인 기업은 약 290만개로 전년 대비 47% 증가했다.
구글 agents-cli로 AI 에이전트 제작·평가·배포 흐름 가져다 쓰기
구글의 agents-cli는 코딩 에이전트 자체가 아니라, 기존 코딩 도구에 에이전트 제작·평가·배포 절차를 붙여주는 CLI다. 같은 글에서는 Anthropic Fable 5 재개, 구글 DESIGN.md를 활용한 AI 디자인 맥락 주입 방식도 함께 다뤘고, 특히 프로덕션에서는 맥락을 통째로 넣는 방식보다 필요한 부분만 불러오는 방식이 더 유리할 수 있다는 점이 핵심이다.
미스트랄, Lean 증명 특화 모델 ‘Leanstral 1.5’ 공개
미스트랄이 Lean 4 기반 증명·검증 작업에 특화된 Leanstral 1.5를 공개했다. 119B 전체 파라미터 중 6B만 활성화되는 구조로, miniF2F 100%, PutnamBench 587/672, FATE-H 87%, FATE-X 34% 같은 성적을 냈다.
메타가 AI 인프라를 팔기 시작하면, 국내 클라우드 기업 가치도 다시 보일까
메타가 자체 구축한 GPU와 데이터센터를 외부에 판매하는 클라우드 사업을 검토하면서, AI 설비투자가 단순 비용이 아니라 수익 자산이 될 수 있다는 분석이 나왔어. 국내에서는 네이버와 삼성SDS 같은 클라우드 관련 기업의 가치가 재평가될 수 있다는 전망이 붙었지만, 글로벌 CSP와 같은 논리를 그대로 적용하긴 어렵다는 지적도 같이 나왔어.
댓글
댓글
댓글을 불러오는 중...