본문으로 건너뛰기
피드

PyTorch 2.11 릴리스

ai-ml 약 4분

PyTorch 2.11이 2,723개 커밋, 432명 기여자 규모로 릴리스됨. FlashAttention-4 백엔드로 Hopper/Blackwell GPU에서 최대 3.2배 속도 향상, 분산 학습용 Differentiable Collectives, CUDA 13 기본 전환, TorchScript 공식 deprecated 등이 주요 변경사항임.

  • 1

    FlexAttention에 FlashAttention-4 백엔드 추가로 Hopper/Blackwell GPU에서 Triton 대비 1.2x~3.2x 속도 향상

  • 2

    Differentiable Collectives로 collective 연산을 통한 역전파가 가능해져 분산 학습 연구가 쉬워짐

  • 3

    CUDA 13이 기본 버전으로 변경되고, TorchScript는 공식 deprecated되어 torch.export + ExecuTorch로 전환 필요

  • 4

    MPS(Apple Silicon), ROCm(AMD), XPUGraph(Intel) 등 멀티플랫폼 지원이 확대됨

  • 5

    CPU에서 OpenBLAS를 통한 FP16 GEMM 지원으로 엣지/CPU 전용 추론 성능 개선

PyTorch 2.11이 나옴. 커밋 2,723개, 기여자 432명 규모의 릴리스임.

FlexAttention + FlashAttention-4

  • Hopper/Blackwell GPU에서 FlashAttention-4 백엔드가 추가됨. CuTeDSL 함수를 자동 생성해서 기존 Triton 구현 대비 compute-bound 워크로드에서 1.2x~3.2x 속도 향상을 보여줌
  • 아직 활발히 개발 중이라 API 변경 가능성이 있음

Differentiable Collectives

  • 분산 학습에서 collective 연산(all-reduce, all-gather 등)을 통한 역전파가 가능해짐
  • 커스텀 autograd 함수 없이도 분산 학습 연구/고급 학습 기법 구현이 됨

MPS (Apple Silicon) 확장

  • log_normal, cauchy, geometric 등 새로운 분포 함수 지원
  • 비동기 에러 리포팅 추가로 GPU 인덱싱 중 out-of-bounds 접근 감지가 가능해짐
  • erfcx, grid_sampler_2d 등 연산자 마이그레이션 진행

RNN/LSTM GPU Export

  • torch.export로 RNN 모듈(LSTM, GRU 등)의 GPU 내보내기가 지원됨
  • 동적 shape 트레이싱도 되므로 프로덕션 추론 배포 시 모델 타입 제약이 크게 줄어듦

ROCm 개선

  • AMD GPU에서 device-side assertion 지원으로 디버깅이 편해짐
  • TopK 연산자가 shared memory 캐싱으로 최적화됨

XPUGraph (Intel GPU)

  • Intel GPU에서 XPU 연산 시퀀스를 캡처/리플레이하는 실행 그래프 지원
  • 커널 런치와 Python 런타임 오버헤드를 줄여주는 방식임

기타 변경사항

  • CUDA 13이 기본 버전으로 변경됨 (기존 12.x에서 업그레이드). CPU 전용 및 CUDA 12.8 빌드는 별도 제공
  • OpenBLAS를 통한 CPU FP16 GEMM 지원 추가. 엣지 디바이스나 CPU 전용 추론 시나리오에서 유용함
  • TorchScript 공식 deprecated. torch.export + ExecuTorch로 전환해야 함

TorchScript deprecated와 torch.export 강화 방향이 뚜렷함. 아직 TorchScript 기반 배포 파이프라인을 쓰고 있다면 마이그레이션 계획을 세워야 할 시점임. FlashAttention-4 백엔드는 아직 API-UNSTABLE이라 프로덕션 적용은 좀 더 지켜볼 필요가 있음.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.