---
title: "헤르메스 에이전트, RTX PC와 DGX Spark에서 로컬 AI 에이전트로 밀어붙인다"
published: 2026-05-15T09:05:03.138Z
canonical: https://jeff.news/article/2736
---
# 헤르메스 에이전트, RTX PC와 DGX Spark에서 로컬 AI 에이전트로 밀어붙인다

누스 리서치의 헤르메스 에이전트는 로컬에서 24시간 돌아가는 자체 개선형 AI 에이전트를 지향한다. NVIDIA는 RTX PC, RTX PRO 워크스테이션, DGX Spark를 헤르메스와 큐웬 3.6 같은 오픈 웨이트 모델을 돌리기 좋은 하드웨어 조합으로 밀고 있다.

## 로컬에서 계속 돌아가는 에이전트가 핵심

- 헤르메스 에이전트(Hermes Agent)는 요즘 에이전틱 AI 흐름에서 꽤 공격적으로 치고 올라온 오픈소스 프레임워크임
  - 오픈클로(OpenClaw) 이후 커뮤니티가 새 에이전트 프레임워크를 빠르게 받아들이는 분위기
  - 헤르메스는 공개 3개월도 안 돼 깃허브 스타 14만 개를 넘겼고, 오픈라우터(OpenRouter) 기준 지난주 전 세계에서 가장 많이 쓰인 에이전트로 언급됨

- 누스 리서치가 헤르메스에서 강조하는 키워드는 신뢰성과 자체 개선임
  - 특정 모델이나 공급업체에 묶이지 않도록 설계됨
  - 24시간 켜져 있는 로컬 환경에서 쓰기 좋게 만들었다는 게 NVIDIA 글의 핵심 포지션
  - 그래서 NVIDIA RTX PC, RTX PRO 워크스테이션, DGX Spark가 “헤르메스 돌리기 좋은 장비”로 등장함

- 헤르메스는 일반 에이전트처럼 메시징 앱, 로컬 파일, 애플리케이션에 접근할 수 있음
  - 차이는 단순 자동화 스크립트가 아니라 계속 실행되는 온디바이스 에이전트를 지향한다는 점
  - NVIDIA는 헤르메스를 얇은 래퍼(wrapper)가 아니라 능동형 오케스트레이션 계층으로 설명함

> [!IMPORTANT]
> 헤르메스의 포인트는 “좋은 모델 하나 붙였다”가 아니라, 로컬에서 계속 실행되는 에이전트 워크플로우를 프레임워크 차원에서 관리한다는 쪽에 가까움.

## 헤르메스가 내세우는 4가지 차별점

- 첫 번째는 자체 진화 기술임
  - 에이전트가 복잡한 작업을 수행하거나 피드백을 받을 때 배운 내용을 스킬 형태로 저장함
  - 시간이 지날수록 직접 스킬을 작성하고 개선하는 구조를 노림

- 두 번째는 독립형 서브 에이전트 구조임
  - 하위 작업마다 짧게 살아 있는 격리 작업자를 붙이는 방식
  - 각 서브 에이전트는 집중된 컨텍스트와 도구 세트를 가지므로, 메인 에이전트가 이것저것 섞어 헷갈릴 가능성을 줄임
  - 컨텍스트 윈도우가 작은 로컬 모델에서도 돌아가기 좋다는 설명이 붙음

- 세 번째는 안정성을 설계 단계부터 챙겼다는 주장임
  - 누스 리서치는 헤르메스에 포함된 기술, 도구, 플러그인을 검증하고 스트레스 테스트한다고 설명함
  - 300억 파라미터급 로컬 모델 환경에서도 지속적인 디버깅 없이 안정적으로 작동한다는 게 메시지

- 네 번째는 같은 모델을 써도 프레임워크에 따라 결과가 달라진다는 주장임
  - 여러 프레임워크에서 동일 모델을 쓴 개발자 비교 테스트에서 헤르메스가 더 나은 성능을 보였다고 소개됨
  - 결국 모델 성능만 보는 게 아니라, 작업을 어떻게 나누고 실행하고 기억하느냐가 중요하다는 얘기임

## 큐웬 3.6과 RTX 조합

- 알리바바의 큐웬 3.6(Qwen 3.6)은 로컬 에이전트 실행에 맞춘 오픈 웨이트 대규모 언어 모델(LLM) 시리즈로 소개됨
  - 27B와 35B 모델이 이전 세대의 120B, 400B 파라미터 모델보다 뛰어난 성능을 낸다는 설명
  - NVIDIA는 이 모델들을 RTX와 DGX Spark에서 돌려 에이전틱 AI를 가속할 수 있다고 밀고 있음

- 숫자만 보면 35B 모델 쪽이 꽤 흥미로움
  - 큐웬 3.6 35B는 약 20GB 메모리만으로 실행됨
  - 기사에서는 70GB 이상 메모리가 필요한 1,200억 파라미터 모델을 능가한다고 설명함

- 큐웬 3.6 27B는 고밀도 모델이라는 점을 강조함
  - 더 많은 활성 파라미터(active parameters)를 갖춘 구조
  - 큐웬 3.5 397B 같은 4,000억 파라미터급 모델의 정확도를 제공하면서 크기는 16분의 1 수준이라고 소개됨

- NVIDIA Tensor 코어는 여기서 추론 처리량과 지연 시간 개선 포인트로 등장함
  - 헤르메스가 다단계 작업을 하거나 자체 스킬을 개선할 때, 몇 분이 아니라 몇 초 안에 끝내는 경험을 목표로 함
  - 로컬 에이전트에서는 모델 품질만큼 토큰 생성 속도와 응답 지연 시간이 체감 성능을 좌우함

## DGX Spark는 상시 실행 에이전트용 컴퓨터로 포지셔닝

- DGX Spark는 하루 종일 돌아가는 에이전틱 워크플로우용 독립형 시스템으로 소개됨
  - 헤르메스 같은 에이전트는 요청 응답, 작업 계획, 자율 실행, 자체 개선을 계속 수행하도록 설계됨
  - 그래서 “가끔 모델 돌리는 PC”보다 상시 워크로드를 버티는 시스템이라는 메시지를 강조함

- 스펙도 그 방향에 맞춰 제시됨
  - 128GB 통합 메모리
  - 1페타플롭급 AI 성능
  - 1,200억 파라미터 규모 전문가형 혼합(Mixture-of-Experts, MoE) 모델 상시 실행 가능

- NVIDIA는 시작 방법도 꽤 현실적인 도구 이름으로 설명함
  - 헤르메스 깃허브 저장소에서 원하는 로컬 모델과 런타임을 연결하면 됨
  - 라마.cpp(llama.cpp), LM 스튜디오(LM Studio), 올라마(Ollama)를 통해 큐웬 3.6과 함께 실행 가능
  - 헤르메스는 LM 스튜디오와 올라마를 기본 지원한다고 소개됨

> [!TIP]
> 로컬 에이전트를 실험한다면 모델 크기보다 먼저 메모리, 런타임, 토큰 생성 속도, 도구 연동 방식을 같이 봐야 함. 에이전트는 한 번 답하고 끝나는 챗봇보다 훨씬 오래, 자주, 많이 추론함.

## RTX AI 생태계 업데이트도 같이 묶였다

- NVIDIA는 RTX PRO GPU에서 라마.cpp로 큐웬 3.6을 실행할 때 최대 3배 빠른 토큰 생성 속도를 제공한다고 설명함
  - 다단계 작업 처리와 자체 스킬 개선 같은 에이전트 워크플로우에서 실시간성이 좋아진다는 논리

- 구글 젬마 4(Gemma 4) 26B와 31B 모델은 NVFP4 체크포인트로 제공됨
  - NVIDIA Blackwell GPU에서 더 빠르게 돌리기 위한 최적화
  - 멀티 토큰 프리딕션(Multi-Token Prediction) 드래프터와 결합하면 동일 출력 품질에서 최대 3배 빠른 추론 속도를 낸다고 소개됨

- 미스트랄 미디엄(Mistral Medium) 3.5도 라마.cpp와 올라마 호환성 업데이트가 포함됨
  - RTX PRO와 DGX Spark 시스템에서 실행할 수 있다는 점을 강조함

- NemoClaw는 보안성과 로컬 모델 지원을 강화한 오픈소스 스택으로 언급됨
  - 오픈클로 환경을 NVIDIA 장치에 맞게 최적화하는 방향
  - WSL2를 지원해 윈도우 기반 개발자도 대상에 포함됨

---

## 기술 맥락

- 여기서 NVIDIA가 말하는 선택은 클라우드 API 호출형 에이전트가 아니라 로컬 상시 실행 에이전트예요. 왜냐하면 헤르메스는 파일과 앱에 접근하고, 작업을 나누고, 스킬을 계속 고치기 때문에 지연 시간과 하드웨어 성능이 사용자 경험에 바로 꽂히거든요.

- 헤르메스의 서브 에이전트 구조는 컨텍스트를 작게 유지하려는 선택이에요. 로컬 모델은 대형 클라우드 모델보다 컨텍스트와 메모리 제약이 더 크게 느껴질 수 있어서, 작업자를 짧게 쪼개고 도구 세트를 제한하는 방식이 안정성에 유리해요.

- 큐웬 3.6 35B가 약 20GB 메모리로 120B급 모델을 앞선다는 설명은 로컬 AI에서 꽤 중요한 포인트예요. 모델이 작아질수록 개인 PC나 워크스테이션에서 돌릴 수 있는 가능성이 커지고, 에이전트처럼 반복 추론이 많은 워크로드의 비용도 줄어드니까요.

- DGX Spark의 128GB 통합 메모리와 1페타플롭급 성능은 단순 벤치마크 과시라기보다, 하루 종일 돌아가는 에이전트를 위한 여유 공간으로 읽는 게 맞아요. 여러 워크로드와 큰 모델을 동시에 붙이면 메모리가 먼저 병목이 되기 쉬워서예요.

## 핵심 포인트

- 헤르메스는 3개월도 안 돼 깃허브 스타 14만 개를 넘긴 오픈소스 에이전틱 프레임워크다
- 자체 스킬 개선, 격리된 서브 에이전트, 로컬 실행 안정성을 주요 차별점으로 내세운다
- 큐웬 3.6 35B는 약 20GB 메모리로 실행되면서 70GB 이상 필요한 120B 모델을 능가한다고 소개됐다
- DGX Spark는 128GB 통합 메모리와 1페타플롭급 AI 성능으로 상시 실행 에이전트용 시스템을 표방한다

## 인사이트

이 글은 사실상 ‘로컬 에이전트 시대에는 프레임워크만큼 하드웨어가 중요하다’는 NVIDIA식 메시지다. 개발자 입장에서는 클라우드 API만 보던 에이전트 실험이 점점 로컬 런타임, 메모리, 추론 지연 시간 문제로 내려오고 있다는 점을 봐야 한다.
