본문으로 건너뛰기
피드

화웨이 클라우드, 에이전틱 AI용 인프라와 플랫폼을 한꺼번에 공개

ai-ml 약 8분
vote
0
댓글
북마크

화웨이 클라우드가 상하이에서 열린 INSPIRE 2026 행사에서 에이전틱 인프라, 모델 개발 플랫폼, 기업용 에이전트 플랫폼, 보안 솔루션을 대거 공개했다. 10만 장 이상 AI 가속기, 최대 200엑사플롭스, 10밀리초 이하 토큰 지연, 1,000개 가속기 기준 초당 500만 토큰 같은 공격적인 수치로 기업용 AI 인프라 시장을 겨냥했다.

  • 1

    화웨이 클라우드가 에이전틱 AI 시대를 위한 에이전틱 인프라 전략을 발표함

  • 2

    AI 클러스터 서비스는 10만 장 이상 AI 가속기와 최대 200엑사플롭스를 지원한다고 밝힘

  • 3

    모델아츠넥스트는 강화학습 서비스, 기밀 추론, 모델 라우팅, 모델 매트릭스를 제공함

  • 4

    에이전트아츠와 오픈지우원은 기업용 AI 에이전트 구축을 겨냥함

  • 5

    데이터 보안 존, HYOK, 기밀 컴퓨팅으로 기업 데이터 주권과 보안을 강조함

에이전트 시대용 클라우드를 선언한 화웨이

  • 화웨이 클라우드가 INSPIRE 2026에서 ‘에이전틱 인프라(Agentic Infra)’를 전면에 내세움

    • 행사는 6월 5~6일 중국 상하이 웨스트번드 국제컨벤션전시센터에서 열림
    • 화웨이 클라우드 CEO 저우 페이는 AI 에이전트가 자율적으로 학습하고 실행하는 시대에는 컴퓨팅 패러다임이 바뀐다고 설명함
  • 화웨이가 보는 핵심 병목은 토큰 생산, 지속 학습, 스케줄링, 보안임

    • 에이전트는 한 번 답하고 끝나는 챗봇이 아니라 오래 실행되고, 도구를 호출하고, 상태를 유지해야 함
    • 그래서 GPU만 많이 쌓는 게 아니라 캐시, 메모리, 실행 환경, 보안 격리까지 같이 봐야 한다는 주장임

숫자로 밀어붙인 AI 인프라

  • AI 클러스터 서비스(AICS)는 초대형 AI 클러스터를 겨냥함
    • 유니파이드버스(UnifiedBus) 기반으로 10만 장 이상의 AI 가속기를 지원한다고 밝힘
    • 최대 200엑사플롭스(EFLOPS), 토큰 생성 지연시간 10밀리초 이하를 제시함
    • 1,000개 가속기 기준 초당 500만 개 토큰 처리와 99.95% 가용성도 내세움

중요

> 화웨이가 제시한 수치 중 제일 눈에 띄는 건 10만 장 이상 AI 가속기, 최대 200엑사플롭스, 10밀리초 이하 토큰 지연시간임. 에이전트가 대량으로 돌아가는 환경에서는 지연과 처리량이 곧 제품 경험이 됨.

  • 에이전틱 메모리 스토리지(AMS)는 장시간 실행되는 에이전트용 메모리 계층을 담당함

    • PB급 메모리 공간을 제공한다고 설명함
    • 계층형 KV 캐시 풀링으로 추론 비용을 줄이고, 에이전트가 오래 작업을 이어갈 수 있게 만드는 구조임
  • CCE 볼케이노넥스트(VolcanoNext)는 AI와 일반 워크로드를 같이 스케줄링하는 엔진임

    • 범용 워크로드와 AI 워크로드를 통합 배치해 자원 활용률을 30% 이상 높였다고 밝힘
    • AI 인프라에서 놀고 있는 자원을 줄이는 게 곧 비용 절감으로 이어지는 대목임
  • 에이전트스피어(AgentSphere)는 에이전트용 보안 실행 환경임

    • 100밀리초 이내 기동을 지원함
    • 분당 수십만 개 인스턴스 생성이 가능하다고 설명해 대규모 에이전트 운영을 겨냥함

모델 개발과 에이전트 플랫폼도 같이 공개

  • 모델아츠넥스트(ModelArtsNext)는 차세대 모델 개발 플랫폼으로 소개됨

    • 강화학습 서비스(RLaaS), 기밀 추론(Confidential Inference), 모델 라우팅, 모델 매트릭스를 제공함
    • 기업은 1분 이내에 학습 작업을 만들고 학습·추론 과정을 시각적으로 관리할 수 있다고 함
  • 모델 라우팅은 요청별로 적합한 AI 모델을 자동 선택하는 기능임

    • 현재 15개 이상의 최신 AI 모델 서비스를 지원한다고 밝힘
    • 화웨이는 모델 선택 정확도 95% 이상, 평균 호출 비용 20% 절감을 달성했다고 설명함
  • 에이전트아츠(AgentArts)는 기업용 AI 에이전트 구축 플랫폼임

    • 장기 실행 작업, 엔터프라이즈 보안, 산업 특화 지식, 전체 프로세스 가시성을 제공함
    • 오픈소스 버전인 오픈지우원(OpenJiuwen)은 상용 버전과 90% 이상 동일한 커널을 공유한다고 함
sequenceDiagram
    participant 사용자 as 기업 사용자
    participant 포털 as 에이전트아츠 오차드
    participant 라우터 as 모델 라우팅
    participant 모델 as AI 모델 서비스
    participant 실행환경 as 에이전트스피어
    사용자->>포털: 에이전트 작업 생성
    포털->>라우터: 요청 특성 전달
    라우터->>모델: 최적 모델 선택 및 호출
    모델-->>실행환경: 추론 결과와 실행 계획 전달
    실행환경-->>사용자: 보안 격리된 작업 결과 반환

보안과 산업별 확장까지 묶은 전략

  • 화웨이는 AI 시대의 핵심 경쟁력으로 보안을 강하게 밀고 있음
    • 데이터 보안 존(Data Security Zone), HYOK 기반 암호화, 데이터 캡슐, 다중 격리 기술을 공개함
    • 기밀 가상머신(VM), 원격 검증, 키 관리, 기밀 추론 게이트웨이도 함께 제시함

ℹ️참고

> 화웨이는 현재까지 1,037일 동안 중대한 서비스 장애 없이 운영됐다고 밝힘. 기업용 AI 클라우드에서는 모델 성능만큼 가용성과 장애 이력이 영업 포인트가 됨.

  • 산업 AI 파운드리도 4개 영역으로 확장함

    • 스마트 헬스케어, 구현형 AI, 스마트 제조, 과학 컴퓨팅 영역을 공개함
    • 의료 분야에서는 상하이교통대 의대 부속 루이진병원을 포함한 20여 개 병원이 스마트 병리학 솔루션에 참여했다고 함
  • 구현형 AI 쪽에서는 클라우드로보(CloudRobo)가 눈에 띔

    • 로봇 모델 개발, 시뮬레이션 검증, 데이터 생성을 통합한 클라우드 기반 로봇 개발 플랫폼임
    • 로봇을 수 시간 내 클라우드 환경으로 이전하고 수 분 내 배포할 수 있다고 설명함
  • 생태계 전략도 같이 깔림

    • 지푸 AI, 딥시크, 미니맥스, 키미, 바이두, 아이플라이텍 스파크 등 20개 이상의 AI 기업과 AI 모델 파트너 프로그램을 발표함
    • 결국 화웨이 클라우드 위에서 여러 모델이 공존하고, 산업별 에이전트 서비스로 이어지는 구조를 만들겠다는 얘기임

기술 맥락

  • 화웨이가 말하는 에이전틱 인프라는 GPU 클러스터 이름만 바꾼 게 아니에요. 에이전트는 대화 한 번으로 끝나지 않고 여러 도구를 호출하고 상태를 유지하면서 오래 실행되기 때문에, 추론 지연·캐시·스케줄링·격리가 전부 병목이 되거든요.

  • AICS와 AMS가 같이 나온 이유도 여기에 있어요. AICS는 대량의 토큰을 빠르게 뽑는 계산 쪽을 맡고, AMS는 장시간 작업에서 KV 캐시와 메모리를 효율적으로 다루는 쪽에 가까워요. 에이전트가 많아질수록 같은 문맥을 계속 다시 계산하면 비용이 터지니까요.

  • 모델 라우팅은 기업 입장에서 꽤 실용적인 기능이에요. 모든 요청을 가장 비싼 모델에 보내면 품질은 괜찮아도 비용이 무섭고, 싼 모델만 쓰면 실패율이 올라갈 수 있어요. 그래서 요청 특성에 따라 모델을 골라 평균 호출 비용을 20% 줄였다는 주장이 나오는 거예요.

  • 보안 기능이 크게 강조된 것도 자연스러워요. 에이전트가 기업 문서, 고객 데이터, 내부 시스템을 직접 다루기 시작하면 추론 과정 자체가 민감 정보 처리 흐름이 되거든요. HYOK, 기밀 추론, 원격 검증 같은 기능은 클라우드를 쓰면서도 통제권을 잃지 않으려는 기업을 겨냥한 장치예요.

화웨이의 메시지는 명확하다. 에이전트가 많아질수록 모델보다 인프라, 캐시, 스케줄링, 보안 실행 환경이 병목이 된다는 얘기다. 숫자는 공격적이고, 지정학적 변수는 별개로, AI 클라우드가 ‘GPU 빌려주는 서비스’에서 에이전트 운영체제에 가까운 형태로 가고 있다는 점은 한국 개발자에게도 꽤 중요한 신호다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

AI 비용 폭탄, 답은 더 큰 클라우드가 아니라 ‘로컬 우선 추론’일 수 있다

기업 생성형 AI 시범사업의 95%가 측정 가능한 손익 효과를 내지 못했다는 MIT 분석을 바탕으로, 기사에서는 비용 문제의 핵심이 모델 성능보다 업무 흐름과 추론 비용에 있다고 짚는다. 대안으로는 쉬운 작업을 기기나 자체 서버에서 먼저 처리하고, 어려운 작업만 클라우드로 보내는 로컬 우선 추론 전략이 제시된다. 실제 사례에서는 문서 4,700건 처리 중 70~80%를 로컬에서 걸러 클라우드 호출 비용 75%, 처리 시간 55%를 줄였다.

ai-ml

구글-스페이스X 초대형 클라우드 계약이 애저 가격 상승 신호로 읽히는 이유

구글이 스페이스X에 클라우드 컴퓨팅 용량 비용으로 월 9억 2천만 달러를 받기로 한 계약이 AI 인프라 수요와 가격 강세의 신호로 해석되고 있다. BNP 파리바는 이런 흐름이 마이크로소프트 애저의 계약 갱신 가격에도 반영되면 애저 성장률이 40% 중반까지 올라갈 수 있다고 봤다. 코파일럿 피드백 개선도 언급됐지만, 기업 고객 확산은 점진적으로 나타날 가능성이 크다.

ai-ml

리얼월드·엔비디아, 휴머노이드 손 성능 재는 ‘덱스벤치’ 만든다

피지컬 AI 스타트업 리얼월드가 엔비디아와 함께 휴머노이드 로봇 손의 성능 벤치마크인 덱스벤치를 출범했다. 5지 손 조작을 5개 도메인과 18개 태스크로 나눠 측정하고, 엔비디아 아이작 랩 생태계와 통합하는 것이 핵심이다. 로봇 경쟁이 하드웨어와 모델 성능을 넘어 표준 경쟁으로 넘어가고 있다는 신호다.

ai-ml

엔비디아 생태계에 올라탄 한국 의료 AI, 소버린 AI와 스마트 병원을 노린다

젠슨 황 방한과 엔비디아 간담회를 계기로 국내 의료 AI 기업들이 글로벌 AI 생태계의 파트너로 부각됐다는 내용이다. 루닛은 의료 특화 파운데이션 모델, 메디컬아이피는 의료 디지털 트윈, 메디아나는 병원 데이터와 피지컬 AI를 연결한 스마트 병원 모델을 내세우고 있다.

ai-ml

AI 로봇이 습도까지 보고 나사 조인다, 제조업 일자리 변화가 이미 시작됐다

창원의 가전부품 제조업체 신성델타테크는 AI 로봇과 비전 AI를 도입해 과거 100명이 하던 일을 60명이 처리할 수 있게 됐다고 밝혔다. 제조 현장뿐 아니라 전문·과학·기술서비스업에서도 취업자 감소가 나타나며 AI 자동화가 지식노동까지 흔들고 있다. 전문가들은 산업별 직무 재설계와 숙련 전수 체계가 필요하다고 지적한다.