본문으로 건너뛰기
피드

헤르메스 에이전트 해부: ‘쓸수록 나아진다’는 말이 코드에 박혀 있나

ai-ml 약 10분
vote
0
댓글
북마크

헤르메스 에이전트는 출시 약 11주 만에 깃허브 스타 14만 5천 개, 누적 토큰 1조 200억 개를 기록하며 OpenRouter 사용량 1위에 오른 오픈소스 AI 에이전트다. 핵심은 작업 절차를 스킬로 저장하고, SQLite FTS5로 검색하며, 메모리 파일과 외부 백엔드로 사용자 맥락을 유지하는 self-improving 구조다.

  • 1

    헤르메스 에이전트는 Nous Research가 MIT 라이선스로 공개한 오픈소스 에이전트이며 출시 두 달 반 만에 OpenRouter 사용량 1위에 오름

  • 2

    도구 호출 5번 이상의 작업 절차를 ~/.hermes/skills/에 마크다운 스킬로 저장하고 재사용함

  • 3

    SQLite FTS5로 1만 개 이상 문서를 약 10밀리초 안에 검색하며, 5달러짜리 가상 서버에서도 돌릴 수 있는 가벼운 구조를 내세움

  • 4

    스킬 포이즈닝, MCP 서버 샌드박스 부재, 자격 증명 노출, GDPR 미해결 같은 리스크도 지적됨

헤르메스가 왜 갑자기 떴나

  • OpenRouter 사용량 랭킹에서 헤르메스 에이전트가 오픈클로를 제치고 1위에 올랐음

    • OpenRouter는 GPT, Claude, Gemini 등 200개 넘는 AI 모델을 골라 쓰는 통합 API 플랫폼임
    • 이 플랫폼의 일간 랭킹은 어떤 AI 앱과 에이전트가 실제로 토큰을 많이 쓰는지 보여주는 지표에 가까움
    • 5월 10일 기준으로 올해 내내 강하던 Openclaw 대신 Hermes Agent가 왕좌를 차지함
  • 헤르메스 에이전트는 Nous Research가 MIT 라이선스로 공개한 오픈소스 에이전트임

    • 공식 문구는 “The Agent that grows with you”, 즉 사용자와 함께 자라는 에이전트임
    • 출시 두 달 반 만에 사용량 1위에 올랐고, 누적 토큰은 1조 200억 개에 달한다고 소개됨
    • 깃허브 스타도 출시 11주 차에 14만 5천 개를 찍었음
  • 여기서 말하는 에이전트 서비스는 ChatGPT나 Claude 데스크톱 앱과 다름

    • 일반 챗봇은 사용자가 창을 열어 말을 걸어야 움직이고, 창을 닫으면 멈춤
    • 에이전트 서비스는 서버에서 계속 도는 상주 작업자에 가까움
    • 노트북을 닫아도 작업이 이어지고, 디스코드나 텔레그램으로 말을 걸면 바로 반응하는 구조임

self-improving은 어떻게 구현됐나

  • 헤르메스의 자가 개선 구조는 저장소 안에서 꽤 명확한 디렉토리로 나뉨

    • agent/는 에이전트 루프 본체이며 학습 루프가 매 작업마다 도는 곳임
    • skills/는 절차적 기억(procedural memory)이 쌓이는 디렉토리임
    • environments/는 강화학습(RL) 환경으로, 사용 흔적을 다음 세대 모델 학습 데이터로 바꾸는 영역임
  • 첫 번째 핵심은 작업 절차를 스킬로 자동 저장하는 구조임

    • 공식 문서 기준으로 도구 호출(tool call) 5번 이상의 작업을 마치면 그 절차를 마크다운 문서로 저장함
    • 저장 위치는 ~/.hermes/skills/임
    • 모든 작업을 무작정 저장하는 게 아니라 다시 쓸 만한 절차를 골라 남기는 방식임
  • 저장된 스킬은 슬래시 명령이나 자동 검색으로 다시 호출됨

    • 사용자는 / 형태로 직접 부를 수 있음
    • 비슷한 상황이 오면 사용자가 호출하지 않아도 에이전트가 알아서 검색함
    • 시간이 지날수록 개인 업무에 맞는 절차 라이브러리가 쌓이는 구조임
  • 메모리 검색에는 SQLite FTS5를 씀

    • 별도 벡터 데이터베이스를 외부에 두는 대신, 거의 모든 운영체제에 있는 SQLite의 내장 전문 검색 기능을 활용함
    • 1만 개 넘는 문서를 약 10밀리초 안에 검색한다고 소개됨
    • 5달러짜리 가상 서버에서도 돌아갈 만큼 인프라 부담이 낮다는 점을 내세움

중요

> 헤르메스의 “쓸수록 나아진다”는 말은 모델이 알아서 천재가 된다는 뜻이 아님. 사용자의 반복 절차와 선호, 작업 패턴을 스킬과 메모리로 축적해 점점 덜 설명해도 되는 도구가 된다는 뜻에 가까움.

  • 사용 흔적은 Atropos RL 환경을 거쳐 다음 세대 도구 사용 모델 학습 데이터로도 변환됨

    • environments/ 디렉토리 쪽에서 사용 trajectory를 압축·변환하는 구조가 보임
    • 일반 사용자가 매일 만지는 기능은 아니지만, 내 사용 방식이 다음 모델 학습에 연결될 수 있다는 점은 중요함
    • 작업 구조 노출이 꺼림칙하다면 해당 기능을 끄는 것도 방법으로 언급됨
  • 메모리는 에이전트가 직접 고칠 수도 있음

    • 내장 메모리 도구로 add, replace, remove를 수행함
    • 처음 만든 절차가 틀렸거나, 환경이 바뀌었거나, 더 나은 방법을 찾으면 기록을 수정하는 흐름임
    • 핵심 파일은 ~/.hermes/memories/MEMORY.md와 USER.md임
  • 외부 메모리 백엔드도 붙음

    • Honcho 기반 메모리는 사용자의 발화, 선호, 작업 패턴을 누적해 세션 너머에서 사용자 모델을 유지함
    • 다음 세션에서 처음부터 다시 설명하지 않아도 에이전트가 사용자를 기억하는 식임
    • 편한 만큼 민감한 사용자 맥락이 쌓인다는 점도 같이 봐야 함

설치와 운영 조건

  • 공식 quickstart 기준 설치는 curl이나 PowerShell 명령으로 시작함

    • macOS, Linux, WSL2, Termux는 install.sh를 실행하는 흐름임
    • Windows 네이티브는 얼리 베타라 공식 문서에서도 WSL2를 권장함
    • 설치 후 hermes setup, hermes model, hermes tools, hermes gateway 순서로 설정을 진행함
  • 모델 선택지는 넓지만 컨텍스트 창 조건이 있음

    • Claude, OpenAI, OpenRouter, Nous Portal, DeepSeek, Kimi, Alibaba Qwen, NVIDIA Nemotron, AWS Bedrock 등을 지원함
    • vLLM, Ollama 같은 로컬 모델 엔드포인트도 받을 수 있음
    • 다만 모델 컨텍스트 창이 최소 6만 4천 토큰 이상이어야 함
  • 오픈클로에서 넘어오는 마이그레이션도 지원함

    • hermes claw migrate로 대화형 전체 자동 마이그레이션을 할 수 있음
    • hermes claw migrate --dry-run으로 미리보기도 가능함
    • hermes claw migrate --preset user-data를 쓰면 API 키 같은 시크릿은 제외할 수 있음

커뮤니티 반응과 리스크

  • 긍정적인 평은 안정성과 온보딩에 모임

    • OpenClaw가 업데이트 때마다 깨져 디버깅에 시간을 많이 썼는데, Hermes로 옮긴 뒤 후회 없다는 마이그레이션 후기가 있음
    • 누적해서 성장하려면 일단 깨지지 않는 안정성이 중요하다는 평가가 나옴
    • 온보딩과 마이그레이션 설계도 좋게 보는 반응이 있음
  • 하지만 무지성 추천하기엔 보안 리스크가 꽤 큼

    • 스킬 포이즈닝 가능성이 지적됨
    • MCP 서버 샌드박스 부재가 문제로 언급됨
    • 자격 증명 노출과 GDPR 미해결도 우려 사항임
    • 1인 개발자에게는 적합할 수 있지만, 규제·결제·감사가 필요한 팀 워크플로에는 아직 부담이 있다는 평도 있음

⚠️주의

> 에이전트 서비스는 내 컴퓨터와 계정의 권한을 꽤 많이 넘겨받음. 스킬 설치, MCP 연결, API 키 관리가 느슨하면 “편한 자동화”가 바로 공격면이 됨.

  • 결론적으로 헤르메스는 “갑자기 똑똑해지는 AI”보다 “쓸수록 내 워크플로에 맞춰지는 AI”에 가까움
    • 데모에서 브라우저를 켜고 멀티스텝 작업을 하는 신기함을 넘어, 반복 업무가 쌓인 뒤 진짜 가치가 드러나는 도구임
    • 출시 직후 hype보다 두어 달 뒤 사용량 1위에 오른 흐름이 오히려 이 특징을 잘 보여줌
    • 다음 에이전트 경쟁은 단순한 모델 성능보다 기억, 절차, 권한, 안정성 설계에서 갈릴 가능성이 큼

기술 맥락

  • 헤르메스의 핵심 선택은 “모델을 계속 학습시킨다”보다 “사용자의 절차를 구조화해서 재사용한다”에 가까워요. 그래서 self-improving이라는 말도 마법 같은 지능 상승이 아니라, 반복 업무를 스킬과 메모리로 저장해 덜 설명해도 되는 방향으로 이해하는 게 정확해요.

  • SQLite FTS5를 쓴 건 꽤 실용적인 선택이에요. 벡터 데이터베이스를 따로 띄우면 운영 복잡도가 올라가는데, 헤르메스는 로컬에 가까운 가벼운 검색으로 스킬을 찾게 해서 5달러 VPS 같은 낮은 사양에서도 굴릴 수 있게 만들었어요.

  • 스킬 저장 기준에 도구 호출 5번 이상 같은 조건이 있는 이유는 모든 대화를 기억하면 오히려 노이즈가 쌓이기 때문이에요. 반복 가치가 있는 작업 절차만 남겨야 다음에 검색했을 때 진짜 도움이 돼요.

  • Atropos RL과 trajectory 변환은 사용 흔적을 다음 모델 개선에 연결하는 레이어예요. 이건 기술적으로 흥미롭지만, 사용자의 업무 구조가 학습 데이터로 갈 수 있다는 뜻이라 프라이버시 설정을 같이 봐야 해요.

  • MCP 샌드박스와 자격 증명 이슈가 나오는 이유도 명확해요. 에이전트가 외부 도구를 많이 호출할수록 편해지지만, 그만큼 파일, 계정, API 키에 닿는 경로도 늘어나거든요. 개인 실험과 팀 운영의 기준을 다르게 봐야 하는 지점이에요.

헤르메스의 self-improving은 마법처럼 모델이 갑자기 똑똑해진다는 뜻이 아니라, 반복 업무 절차와 사용자 맥락을 계속 축적해 워크플로에 맞춰진다는 쪽에 가깝다. 개발자가 봐야 할 포인트는 hype보다 메모리, 스킬, 권한, 샌드박스 설계임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.