---
title: "AMD가 오픈소스 로컬 LLM 서버 'Lemonade' 공개 — 2MB짜리 C++ 백엔드에 GPU+NPU 지원"
published: 2026-04-02T11:04:51.000Z
canonical: https://jeff.news/article/1486
---
# AMD가 오픈소스 로컬 LLM 서버 'Lemonade' 공개 — 2MB짜리 C++ 백엔드에 GPU+NPU 지원

AMD가 GPU와 NPU를 활용하는 초경량 로컬 LLM 서버 Lemonade를 오픈소스로 공개함. C++ 네이티브 백엔드 기반 2MB 크기에 OpenAI API 호환, 멀티엔진 지원이 특징.

- AMD가 로컬 LLM 서버 "Lemonade"를 오픈소스로 공개함 — C++ 네이티브 백엔드 기반, 전체 용량이 고작 2MB
  - GPU뿐 아니라 NPU도 활용 가능하고, 하드웨어에 맞춰 자동 설정됨
  - llama.cpp, Ryzen AI SW, FastFlowLM 등 여러 추론 엔진과 호환
- OpenAI API 호환이라 기존 앱 수백 개와 바로 연동 가능
  - 별도 설정 없이 1분 안에 설치 완료되는 인스톨러 제공
- 동시에 여러 모델을 돌릴 수 있고, Windows/Linux/macOS(베타) 크로스플랫폼 지원
  - 로컬 LLM 서버 치고는 꽤 가벼운 구성 — 무거운 Python 의존성 없이 C++로 밀어붙인 게 포인트

## 핵심 포인트

- C++ 네이티브 백엔드 2MB 초경량 구성
- GPU/NPU 자동 감지 및 설정
- OpenAI API 호환으로 기존 앱과 즉시 연동
- llama.cpp, Ryzen AI SW 등 멀티엔진 지원

## 인사이트

Python 의존성 없는 2MB C++ 바이너리라는 점이 기존 로컬 LLM 서버(Ollama 등)와 차별화되는 포인트. NPU 지원이 AMD 하드웨어 락인 전략의 일환일 수 있음.
