본문으로 건너뛰기
피드

엔비디아, AI 팩토리 설계·운영 플랫폼 DSX 공개

devops 약 6분
vote
0
댓글
북마크

엔비디아가 GTC 타이베이에서 AI 팩토리 구축 기업을 위한 통합 플랫폼 NVIDIA DSX를 공개했음. DSX는 오픈소스 소프트웨어, API, 레퍼런스 디자인, 가속 컴퓨팅 플랫폼, 파트너 기술을 묶어 AI 데이터센터의 설계·배포·운영을 지원하는 플랫폼임.

  • 1

    DSX는 AI 팩토리의 설계, 배포, 운영 전 과정을 지원하는 통합 플랫폼으로 공개됐음

  • 2

    DSX MaxLPS는 전력 한도 안에서 메가와트당 토큰 성능을 극대화하고, 최적 전력 효율 구간에서 최대 40% 더 많은 GPU 운영을 지원한다고 함

  • 3

    DSX OS는 수명주기 관리, 지능형 스케줄링, 런타임 환경, 상태 자동화, 복원력, 멀티 테넌트 운영을 제공함

  • 4

    코어위브, 크루소, 람다, 네비우스 등 클라우드 사업자와 델, HPE, 레노버, 슈퍼마이크로 등 제조사가 생태계에 참여 중임

  • 엔비디아가 AI 팩토리 구축용 통합 플랫폼 NVIDIA DSX를 공개했음

    • 발표 장소는 GTC 타이베이임
    • DSX는 AI 팩토리의 설계, 배포, 운영 전 과정을 지원하는 플랫폼임
    • 오픈소스 소프트웨어 라이브러리, API, 레퍼런스 디자인, 엔비디아 가속 컴퓨팅 플랫폼, 파트너 기술을 한데 묶음
  • 엔비디아가 말하는 AI 팩토리는 그냥 GPU 서버실이 아님

    • 컴퓨팅, 소프트웨어, 시설, 전력, 냉각, 파트너 기술까지 하나의 스택으로 보는 접근임
    • 목표는 배포 속도를 높이고, 운영 신뢰성과 복원력을 강화하고, 메가와트당 더 많은 인텔리전스를 뽑아내는 것임
    • 동시에 토큰당 비용을 최소화하겠다는 얘기라, 결국 전력 대비 추론·학습 효율 싸움임

중요

> 젠슨 황은 “우리가 공급하는 것은 단순한 칩이 아니다”라고 말했음. DSX는 엔비디아가 GPU 판매를 넘어 AI 팩토리 전체 운영 플랫폼을 잡겠다는 메시지임.

  • 새 구성 요소로 DSX MaxLPS와 DSX OS가 들어감

    • DSX MaxLPS는 일정 전력 한도 안에서 메가와트당 토큰 성능을 극대화해 토큰 비용을 낮추는 기술 제품군임
    • 엔비디아 설명에 따르면 최적 전력 효율 구간에서 최대 40% 더 많은 GPU 운영을 지원함
    • DSX OS는 AI 팩토리 운영용 모듈형 오픈소스 소프트웨어로, 수명주기 관리와 지능형 스케줄링, 일관된 런타임 환경을 제공함
    • 여기에 상태 자동화, 복원력, 멀티 테넌트 운영, 플랫폼 서비스까지 포함됨
  • 기존 DSX 구성도 꽤 인프라 운영 쪽으로 맞춰져 있음

    • DSX 레퍼런스 디자인은 컴퓨팅, 네트워킹, 스토리지, 시설 인프라를 포함한 AI 팩토리 아키텍처를 제공함
    • DSX Sim은 계획, 설계, 배포, 운영 전 과정을 가상으로 검증하는 고충실도 시뮬레이션 레이어임
    • DSX Flex는 전력망과 AI 팩토리를 연결해 전력 수요 변화에 맞춰 워크로드를 조정함
    • DSX Exchange는 컴퓨팅, 네트워크, 전력, 냉각 설비 신호를 안전하게 통합하는 역할임
  • 클라우드 사업자와 시스템 제조사 참여도 이미 꽤 넓음

    • 코어위브, 크루소, 퍼머스, IREN, 람다, 네비우스, 엔스케일, 요타 데이터 서비스가 DSX Sim, DSX MaxLPS, DSX OS를 도입했다고 함
    • 델, HPE, 레노버, 슈퍼마이크로는 물론 ASUS, 폭스콘, 기가바이트, 페가트론, QCT, 위스트론, Wiwynn도 DSX-레디 시스템을 구축 중임
    • 다쏘시스템, 케이던스, 지멘스와는 AI 팩토리 디지털 트윈과 시뮬레이션 생태계를 넓히는 쪽으로 협력 중임
  • 개발자와 인프라 팀 입장에선 “AI 데이터센터 운영체제”에 가까운 얘기임

    • 학습과 추론을 돌리는 서버만 보는 게 아니라 전력 제한, 냉각 상태, 스케줄링, 멀티 테넌트 운영까지 같이 봐야 함
    • AI 워크로드가 커질수록 병목은 GPU 개수만이 아니라 전력, 시설, 운영 자동화로 이동함
    • DSX는 그 병목을 엔비디아 생태계 안에서 설계하고 시뮬레이션하고 운영하게 만드는 플랫폼 전략임

기술 맥락

  • DSX의 핵심 선택은 AI 인프라를 서버 묶음이 아니라 공장처럼 다루는 거예요. 모델 학습과 추론이 계속 돌아가려면 GPU뿐 아니라 전력, 냉각, 네트워크, 스토리지, 스케줄링이 같이 최적화돼야 하거든요.

  • DSX MaxLPS가 전력 한도 안에서 토큰 성능을 높이려는 이유도 분명해요. 대규모 AI 팩토리에서는 전력 공급이 병목이 되기 쉬워서, 같은 메가와트로 더 많은 토큰을 처리하면 바로 비용 경쟁력이 생겨요.

  • DSX OS는 운영 레이어를 표준화하려는 시도에 가까워요. 멀티 테넌트 환경에서 여러 고객이나 워크로드가 GPU를 나눠 쓰려면 스케줄링, 런타임 일관성, 장애 복구가 플랫폼 차원에서 맞물려야 해요.

  • DSX Sim과 디지털 트윈이 들어간 것도 현실적인 선택이에요. AI 팩토리는 짓고 나서 고치기엔 비용이 너무 커서, 배포 전에 전력·냉각·컴퓨팅 구성을 시뮬레이션으로 검증하는 게 중요해요.

AI 인프라 경쟁이 이제 GPU 몇 장을 사느냐가 아니라 전력, 냉각, 스케줄링, 시뮬레이션, 운영 자동화까지 묶는 싸움으로 가고 있음. DSX는 엔비디아가 칩 공급자보다 AI 팩토리 플랫폼 사업자로 자리 잡으려는 선언에 가깝다.

댓글

댓글

댓글을 불러오는 중...

devops

구글, AI 데이터센터 물 사용 논란에 2030년 수자원 복원 공약으로 맞섬

구글이 AI 데이터센터의 물 사용 논란에 대응해 2030년까지 사용량보다 더 많은 물을 지역사회에 복원하겠다는 5대 공약을 발표함. 수랭식 냉각은 전력 사용을 약 10% 줄일 수 있지만 물 소비가 늘어나는 트레이드오프가 있어, AI 인프라 경쟁의 환경 비용이 본격적으로 쟁점화되는 분위기임.

devops

넷앱·구글 클라우드, AI 시대용 스토리지 이동성 강화

넷앱과 구글 클라우드가 ‘구글 클라우드 넷앱 볼륨’ 서비스를 강화해 파일과 블록 워크로드를 한 번에 지원한다. 기업이 기존 애플리케이션을 크게 뜯어고치지 않고도 데이터베이스, 고성능 컴퓨팅, VM웨어 환경, AI 워크로드를 구글 클라우드에서 더 쉽게 운영하도록 돕겠다는 전략이다.

devops

국내 클라우드 업계, 공공 NPU부터 제조 AI 운영까지 한 번에 쏟아낸 업데이트

국내 클라우드 업계에서 공공 전용 NPU 서버, 멀티모달 AI 에이전트, 제조 AI 전환, AI 음성차팅, 사내 AI 해커톤 지원 소식이 함께 나왔다. 특히 KT클라우드의 공공 NPUaaS와 베스핀글로벌의 AI 운영 플랫폼, 인투보이스의 월 최대 140시간 업무 절감 수치가 눈에 띈다.

devops

넷앱과 구글 클라우드, AI 워크로드용 스토리지·데이터 이동 기능 강화

넷앱이 구글 클라우드와 협력을 확대하며 AI 환경 구축을 위한 데이터 관리와 스토리지 기능을 발표했어. 핵심은 데이터를 여러 번 복제하거나 인프라를 크게 갈아엎지 않고, 구글 클라우드에서 파일·블록 데이터와 AI 서비스를 더 쉽게 연결하는 거야.

devops

폭스콘·인텔, 엔비디아 중심 AI 인프라에 CPU·서버랙 동맹으로 맞선다

폭스콘과 인텔이 차세대 AI 인프라와 지능형 컴퓨팅 플랫폼을 공동 개발하기로 했다. 인텔의 제온 프로세서·AI 반도체와 폭스콘의 제조·시스템 통합 역량을 묶어 데이터센터 서버랙, 연결 기술, 냉각, 에너지 효율까지 함께 고도화하겠다는 전략임.