0
PyTorch 2.11 릴리스
ai-ml
요약
기사 전체 정리
PyTorch 2.11 릴리스
PyTorch 2.11이 나옴. 커밋 2,723개, 기여자 432명 규모의 릴리스임.
FlexAttention + FlashAttention-4
- Hopper/Blackwell GPU에서 FlashAttention-4 백엔드가 추가됨. CuTeDSL 함수를 자동 생성해서 기존 Triton 구현 대비 compute-bound 워크로드에서 1.2x~3.2x 속도 향상을 보여줌
- 아직 활발히 개발 중이라 API 변경 가능성이 있음
Differentiable Collectives
- 분산 학습에서 collective 연산(all-reduce, all-gather 등)을 통한 역전파가 가능해짐
- 커스텀 autograd 함수 없이도 분산 학습 연구/고급 학습 기법 구현이 됨
MPS (Apple Silicon) 확장
log_normal,cauchy,geometric등 새로운 분포 함수 지원- 비동기 에러 리포팅 추가로 GPU 인덱싱 중 out-of-bounds 접근 감지가 가능해짐
erfcx,grid_sampler_2d등 연산자 마이그레이션 진행
RNN/LSTM GPU Export
torch.export로 RNN 모듈(LSTM, GRU 등)의 GPU 내보내기가 지원됨- 동적 shape 트레이싱도 되므로 프로덕션 추론 배포 시 모델 타입 제약이 크게 줄어듦
ROCm 개선
- AMD GPU에서 device-side assertion 지원으로 디버깅이 편해짐
- TopK 연산자가 shared memory 캐싱으로 최적화됨
XPUGraph (Intel GPU)
- Intel GPU에서 XPU 연산 시퀀스를 캡처/리플레이하는 실행 그래프 지원
- 커널 런치와 Python 런타임 오버헤드를 줄여주는 방식임
기타 변경사항
- CUDA 13이 기본 버전으로 변경됨 (기존 12.x에서 업그레이드). CPU 전용 및 CUDA 12.8 빌드는 별도 제공
- OpenBLAS를 통한 CPU FP16 GEMM 지원 추가. 엣지 디바이스나 CPU 전용 추론 시나리오에서 유용함
- TorchScript 공식 deprecated.
torch.export+ ExecuTorch로 전환해야 함
댓글
댓글
댓글을 불러오는 중...