---
title: "에이수스, 로컬+클라우드 하이브리드 AI로 추론 비용 최대 70% 줄인다"
published: 2026-05-25T14:05:04.763Z
canonical: https://jeff.news/article/3224
---
# 에이수스, 로컬+클라우드 하이브리드 AI로 추론 비용 최대 70% 줄인다

에이수스가 기업용 노트북, 데스크톱, NUC 미니 PC에 하이브리드 AI 아키텍처를 통합했다. 가벼운 AI 작업은 로컬 디바이스에서 처리하고 복잡한 작업만 클라우드로 보내는 방식이며, 핀치벤치 기준 26B·35B 모델 추론 비용을 성능 저하 없이 최대 70% 줄일 수 있다고 밝혔다.

- 에이수스가 기업용 PC 라인업에 하이브리드 AI 아키텍처를 넣겠다고 발표함
  - 대상은 에스퍼트북(ExpertBook) 노트북, 엑스퍼트센터(ExpertCenter) 데스크톱, NUC 미니 PC 등 상용 디바이스 전반
  - 방향은 명확함. 모든 AI 요청을 클라우드로 던지는 대신, 로컬 디바이스와 클라우드가 일을 나눠 맡는 구조임

- 배경은 기업들의 생성형 AI 비용 문제임
  - 대규모 언어 모델(LLM)과 AI 에이전트 앱 도입이 빨라지면서 토큰 기반 추론 비용이 빠르게 커지고 있음
  - 순수 클라우드 방식은 사용량이 늘수록 비용 예측이 어려워지고, 대규모 배포에서 운영 부담도 커짐

> [!IMPORTANT]
> 에이수스가 내세운 숫자는 꽤 세다. 핀치벤치(PinchBench) 기준 26B·35B 중대형 모델에서 성능 저하 없이 추론 비용을 최대 70%까지 줄일 수 있다고 주장함.

- 하이브리드 구조의 핵심은 작업 난이도에 따라 실행 위치를 바꾸는 것임
  - 가벼운 AI 작업은 로컬 PC에서 처리함
  - 복잡하거나 더 큰 연산이 필요한 작업만 클라우드로 보냄
  - 이렇게 하면 응답성은 유지하면서 클라우드 토큰 소비를 줄일 수 있음

```mermaid
sequenceDiagram
    participant 사용자
    participant 로컬디바이스
    participant 라우팅게이트웨이
    participant 클라우드AI
    사용자->>로컬디바이스: 이메일 작성·요약 요청
    로컬디바이스->>라우팅게이트웨이: 작업 복잡도 판단 요청
    라우팅게이트웨이->>로컬디바이스: 가벼운 작업은 로컬 처리
    로컬디바이스-->>사용자: 빠른 응답 반환
    라우팅게이트웨이->>클라우드AI: 복잡한 작업만 전달
    클라우드AI-->>사용자: 고난도 결과 반환
```

- 기술적으로는 피손(Phison)의 aiDAPTIV 메모리 확장 기술이 들어감
  - 하드웨어 자원이 제한된 디바이스에서도 중대형 언어 모델을 로컬에서 실행할 수 있게 돕는 기술로 소개됨
  - 기존에는 고성능 인프라가 필요했던 AI 워크로드를 상용 PC 플랫폼에서도 처리하게 만드는 게 목표임

- 라우팅 메커니즘도 같이 붙음
  - 게이트웨이 기반 라우팅이 작업 복잡도를 보고 로컬 처리와 클라우드 처리를 나눔
  - 즉, 사용자는 하나의 AI 기능처럼 쓰지만 뒤에서는 비용과 성능을 기준으로 실행 위치가 갈리는 구조임

- 적용 시나리오는 꽤 현실적인 업무 자동화 쪽에 맞춰져 있음
  - 다국어 번역, 비즈니스 이메일 작성, 회의록 요약, 계약서·장문 문서 요약
  - 사내 지식 기반 질의응답, 고객 서비스 자동화, 고객관계관리(CRM) 기록 관리도 포함됨
  - 전부 기업에서 호출량이 많아지면 클라우드 비용이 은근히 무서워지는 작업들임

> [!TIP]
> 기업에서 AI 기능을 붙일 때는 “모델이 똑똑한가”만 보면 부족함. 반복 호출이 많은 요약·분류·초안 작성은 로컬 처리 후보로 따로 빼는 게 비용 설계에 중요해짐.

- 에이수스의 메시지는 AI PC를 단독 기기가 아니라 확장 가능한 기업 솔루션으로 보겠다는 쪽임
  - 에이수스 커머셜 PC 사업부는 더 많은 AI 처리를 디바이스로 옮겨 클라우드 의존도를 낮추겠다고 설명함
  - 피손도 aiDAPTIV가 기존 메모리 한계를 완화하고 로컬에서 더 큰 모델을 실행하도록 돕는다고 강조함

- 개발자 입장에서는 “하이브리드 추론 라우팅”이 앞으로 앱 아키텍처의 한 축이 될 수 있음
  - 민감한 데이터는 로컬에서 처리하고, 고난도 작업만 클라우드 모델로 보내는 식의 분리가 자연스러워짐
  - 비용, 지연 시간, 프라이버시를 기준으로 요청을 분기하는 설계가 기업 AI 앱에서 점점 중요해질 가능성이 큼

---
## 기술 맥락

- 에이수스가 고른 방향은 “모든 걸 클라우드로 보내지 말자”예요. 생성형 AI를 업무에 붙이면 처음엔 편해 보이지만, 사용자가 늘고 자동화가 많아질수록 추론 호출이 그대로 비용이 되거든요. 그래서 반복적이고 가벼운 작업은 로컬에서 처리하려는 거예요.

- 여기서 중요한 부품이 라우팅이에요. 사용자의 요청이 이메일 초안처럼 가벼운지, 긴 계약서 분석처럼 무거운지 판단해서 로컬 디바이스와 클라우드 AI 중 어디로 보낼지 정해야 해요. 이 판단이 잘못되면 비용을 줄이려다 품질이 떨어지거나, 반대로 쉬운 작업까지 클라우드로 보내 돈을 계속 쓰게 돼요.

- aiDAPTIV가 들어가는 이유는 로컬 PC의 메모리 한계 때문이에요. 26B나 35B급 모델은 일반 사무용 PC에서 쉽게 돌리기 부담스러운 크기라서, 메모리 확장 기술로 로컬 실행 가능 범위를 넓히겠다는 접근이에요. 기사에서 비용 70% 절감이라는 숫자가 나온 것도 이 로컬 실행 전제가 있어야 의미가 있어요.

- 기업 입장에서는 프라이버시도 큰 이유예요. 회의록, 계약서, 사내 지식 문서는 외부 클라우드로 보내기 꺼려지는 경우가 많아요. 로컬이나 온프레미스에서 처리할 수 있으면 보안 정책을 지키면서도 AI 기능을 도입하기 쉬워져요.

- 개발팀이 봐야 할 포인트는 모델 선택보다 실행 위치 설계예요. 같은 기능이라도 로컬 모델, 사내 서버, 외부 클라우드 모델 중 어디서 돌리느냐에 따라 비용 구조와 장애 대응 방식이 완전히 달라지거든요. 하이브리드 AI는 결국 제품 기능이 아니라 운영 아키텍처 문제에 가까워요.

## 핵심 포인트

- 에이수스가 ExpertBook, ExpertCenter, NUC 미니 PC에 하이브리드 AI 아키텍처를 적용했다
- 피손의 aiDAPTIV 메모리 확장 기술로 제한된 하드웨어에서도 중대형 언어 모델을 로컬 실행하도록 지원한다
- 핀치벤치 결과 26B·35B 모델의 추론 비용을 최대 70% 절감할 수 있다고 제시했다

## 인사이트

기업 AI 도입에서 진짜 병목은 모델 데모가 아니라 매달 쌓이는 추론 비용이다. 에이수스의 접근은 AI PC를 ‘멋진 개인용 기기’가 아니라 클라우드 비용을 줄이는 사내 인프라 조각으로 포지셔닝한다는 점이 흥미롭다.
