---
title: "PyTorch 2.11 릴리스"
published: 2026-03-23T23:26:44.000Z
canonical: https://jeff.news/article/952
---
# PyTorch 2.11 릴리스

PyTorch 2.11이 2,723개 커밋, 432명 기여자 규모로 릴리스됨. FlashAttention-4 백엔드로 Hopper/Blackwell GPU에서 최대 3.2배 속도 향상, 분산 학습용 Differentiable Collectives, CUDA 13 기본 전환, TorchScript 공식 deprecated 등이 주요 변경사항임.

PyTorch 2.11이 나옴. 커밋 2,723개, 기여자 432명 규모의 릴리스임.

## FlexAttention + FlashAttention-4

- Hopper/Blackwell GPU에서 FlashAttention-4 백엔드가 추가됨. CuTeDSL 함수를 자동 생성해서 기존 Triton 구현 대비 compute-bound 워크로드에서 **1.2x~3.2x 속도 향상**을 보여줌
- 아직 활발히 개발 중이라 API 변경 가능성이 있음

## Differentiable Collectives

- 분산 학습에서 collective 연산(all-reduce, all-gather 등)을 통한 역전파가 가능해짐
- 커스텀 autograd 함수 없이도 분산 학습 연구/고급 학습 기법 구현이 됨

## MPS (Apple Silicon) 확장

- `log_normal`, `cauchy`, `geometric` 등 새로운 분포 함수 지원
- 비동기 에러 리포팅 추가로 GPU 인덱싱 중 out-of-bounds 접근 감지가 가능해짐
- `erfcx`, `grid_sampler_2d` 등 연산자 마이그레이션 진행

## RNN/LSTM GPU Export

- `torch.export`로 RNN 모듈(LSTM, GRU 등)의 GPU 내보내기가 지원됨
- 동적 shape 트레이싱도 되므로 프로덕션 추론 배포 시 모델 타입 제약이 크게 줄어듦

## ROCm 개선

- AMD GPU에서 device-side assertion 지원으로 디버깅이 편해짐
- TopK 연산자가 shared memory 캐싱으로 최적화됨

## XPUGraph (Intel GPU)

- Intel GPU에서 XPU 연산 시퀀스를 캡처/리플레이하는 실행 그래프 지원
- 커널 런치와 Python 런타임 오버헤드를 줄여주는 방식임

## 기타 변경사항

- **CUDA 13이 기본 버전**으로 변경됨 (기존 12.x에서 업그레이드). CPU 전용 및 CUDA 12.8 빌드는 별도 제공
- OpenBLAS를 통한 **CPU FP16 GEMM** 지원 추가. 엣지 디바이스나 CPU 전용 추론 시나리오에서 유용함
- **TorchScript 공식 deprecated**. `torch.export` + ExecuTorch로 전환해야 함

## 핵심 포인트

- FlexAttention에 FlashAttention-4 백엔드 추가로 Hopper/Blackwell GPU에서 Triton 대비 1.2x~3.2x 속도 향상
- Differentiable Collectives로 collective 연산을 통한 역전파가 가능해져 분산 학습 연구가 쉬워짐
- CUDA 13이 기본 버전으로 변경되고, TorchScript는 공식 deprecated되어 torch.export + ExecuTorch로 전환 필요
- MPS(Apple Silicon), ROCm(AMD), XPUGraph(Intel) 등 멀티플랫폼 지원이 확대됨
- CPU에서 OpenBLAS를 통한 FP16 GEMM 지원으로 엣지/CPU 전용 추론 성능 개선

## 인사이트

TorchScript deprecated와 torch.export 강화 방향이 뚜렷함. 아직 TorchScript 기반 배포 파이프라인을 쓰고 있다면 마이그레이션 계획을 세워야 할 시점임. FlashAttention-4 백엔드는 아직 API-UNSTABLE이라 프로덕션 적용은 좀 더 지켜볼 필요가 있음.
