본문으로 건너뛰기
피드

에이수스, 로컬+클라우드 하이브리드 AI로 추론 비용 최대 70% 줄인다

ai-ml 약 7분
vote
0
댓글
북마크

에이수스가 기업용 노트북, 데스크톱, NUC 미니 PC에 하이브리드 AI 아키텍처를 통합했다. 가벼운 AI 작업은 로컬 디바이스에서 처리하고 복잡한 작업만 클라우드로 보내는 방식이며, 핀치벤치 기준 26B·35B 모델 추론 비용을 성능 저하 없이 최대 70% 줄일 수 있다고 밝혔다.

  • 1

    에이수스가 ExpertBook, ExpertCenter, NUC 미니 PC에 하이브리드 AI 아키텍처를 적용했다

  • 2

    피손의 aiDAPTIV 메모리 확장 기술로 제한된 하드웨어에서도 중대형 언어 모델을 로컬 실행하도록 지원한다

  • 3

    핀치벤치 결과 26B·35B 모델의 추론 비용을 최대 70% 절감할 수 있다고 제시했다

  • 에이수스가 기업용 PC 라인업에 하이브리드 AI 아키텍처를 넣겠다고 발표함

    • 대상은 에스퍼트북(ExpertBook) 노트북, 엑스퍼트센터(ExpertCenter) 데스크톱, NUC 미니 PC 등 상용 디바이스 전반
    • 방향은 명확함. 모든 AI 요청을 클라우드로 던지는 대신, 로컬 디바이스와 클라우드가 일을 나눠 맡는 구조임
  • 배경은 기업들의 생성형 AI 비용 문제임

    • 대규모 언어 모델(LLM)과 AI 에이전트 앱 도입이 빨라지면서 토큰 기반 추론 비용이 빠르게 커지고 있음
    • 순수 클라우드 방식은 사용량이 늘수록 비용 예측이 어려워지고, 대규모 배포에서 운영 부담도 커짐

중요

> 에이수스가 내세운 숫자는 꽤 세다. 핀치벤치(PinchBench) 기준 26B·35B 중대형 모델에서 성능 저하 없이 추론 비용을 최대 70%까지 줄일 수 있다고 주장함.

  • 하이브리드 구조의 핵심은 작업 난이도에 따라 실행 위치를 바꾸는 것임
    • 가벼운 AI 작업은 로컬 PC에서 처리함
    • 복잡하거나 더 큰 연산이 필요한 작업만 클라우드로 보냄
    • 이렇게 하면 응답성은 유지하면서 클라우드 토큰 소비를 줄일 수 있음
sequenceDiagram
    participant 사용자
    participant 로컬디바이스
    participant 라우팅게이트웨이
    participant 클라우드AI
    사용자->>로컬디바이스: 이메일 작성·요약 요청
    로컬디바이스->>라우팅게이트웨이: 작업 복잡도 판단 요청
    라우팅게이트웨이->>로컬디바이스: 가벼운 작업은 로컬 처리
    로컬디바이스-->>사용자: 빠른 응답 반환
    라우팅게이트웨이->>클라우드AI: 복잡한 작업만 전달
    클라우드AI-->>사용자: 고난도 결과 반환
  • 기술적으로는 피손(Phison)의 aiDAPTIV 메모리 확장 기술이 들어감

    • 하드웨어 자원이 제한된 디바이스에서도 중대형 언어 모델을 로컬에서 실행할 수 있게 돕는 기술로 소개됨
    • 기존에는 고성능 인프라가 필요했던 AI 워크로드를 상용 PC 플랫폼에서도 처리하게 만드는 게 목표임
  • 라우팅 메커니즘도 같이 붙음

    • 게이트웨이 기반 라우팅이 작업 복잡도를 보고 로컬 처리와 클라우드 처리를 나눔
    • 즉, 사용자는 하나의 AI 기능처럼 쓰지만 뒤에서는 비용과 성능을 기준으로 실행 위치가 갈리는 구조임
  • 적용 시나리오는 꽤 현실적인 업무 자동화 쪽에 맞춰져 있음

    • 다국어 번역, 비즈니스 이메일 작성, 회의록 요약, 계약서·장문 문서 요약
    • 사내 지식 기반 질의응답, 고객 서비스 자동화, 고객관계관리(CRM) 기록 관리도 포함됨
    • 전부 기업에서 호출량이 많아지면 클라우드 비용이 은근히 무서워지는 작업들임

💡

> 기업에서 AI 기능을 붙일 때는 “모델이 똑똑한가”만 보면 부족함. 반복 호출이 많은 요약·분류·초안 작성은 로컬 처리 후보로 따로 빼는 게 비용 설계에 중요해짐.

  • 에이수스의 메시지는 AI PC를 단독 기기가 아니라 확장 가능한 기업 솔루션으로 보겠다는 쪽임

    • 에이수스 커머셜 PC 사업부는 더 많은 AI 처리를 디바이스로 옮겨 클라우드 의존도를 낮추겠다고 설명함
    • 피손도 aiDAPTIV가 기존 메모리 한계를 완화하고 로컬에서 더 큰 모델을 실행하도록 돕는다고 강조함
  • 개발자 입장에서는 “하이브리드 추론 라우팅”이 앞으로 앱 아키텍처의 한 축이 될 수 있음

    • 민감한 데이터는 로컬에서 처리하고, 고난도 작업만 클라우드 모델로 보내는 식의 분리가 자연스러워짐
    • 비용, 지연 시간, 프라이버시를 기준으로 요청을 분기하는 설계가 기업 AI 앱에서 점점 중요해질 가능성이 큼

기술 맥락

  • 에이수스가 고른 방향은 “모든 걸 클라우드로 보내지 말자”예요. 생성형 AI를 업무에 붙이면 처음엔 편해 보이지만, 사용자가 늘고 자동화가 많아질수록 추론 호출이 그대로 비용이 되거든요. 그래서 반복적이고 가벼운 작업은 로컬에서 처리하려는 거예요.

  • 여기서 중요한 부품이 라우팅이에요. 사용자의 요청이 이메일 초안처럼 가벼운지, 긴 계약서 분석처럼 무거운지 판단해서 로컬 디바이스와 클라우드 AI 중 어디로 보낼지 정해야 해요. 이 판단이 잘못되면 비용을 줄이려다 품질이 떨어지거나, 반대로 쉬운 작업까지 클라우드로 보내 돈을 계속 쓰게 돼요.

  • aiDAPTIV가 들어가는 이유는 로컬 PC의 메모리 한계 때문이에요. 26B나 35B급 모델은 일반 사무용 PC에서 쉽게 돌리기 부담스러운 크기라서, 메모리 확장 기술로 로컬 실행 가능 범위를 넓히겠다는 접근이에요. 기사에서 비용 70% 절감이라는 숫자가 나온 것도 이 로컬 실행 전제가 있어야 의미가 있어요.

  • 기업 입장에서는 프라이버시도 큰 이유예요. 회의록, 계약서, 사내 지식 문서는 외부 클라우드로 보내기 꺼려지는 경우가 많아요. 로컬이나 온프레미스에서 처리할 수 있으면 보안 정책을 지키면서도 AI 기능을 도입하기 쉬워져요.

  • 개발팀이 봐야 할 포인트는 모델 선택보다 실행 위치 설계예요. 같은 기능이라도 로컬 모델, 사내 서버, 외부 클라우드 모델 중 어디서 돌리느냐에 따라 비용 구조와 장애 대응 방식이 완전히 달라지거든요. 하이브리드 AI는 결국 제품 기능이 아니라 운영 아키텍처 문제에 가까워요.

기업 AI 도입에서 진짜 병목은 모델 데모가 아니라 매달 쌓이는 추론 비용이다. 에이수스의 접근은 AI PC를 ‘멋진 개인용 기기’가 아니라 클라우드 비용을 줄이는 사내 인프라 조각으로 포지셔닝한다는 점이 흥미롭다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.